上 善 若水 ， 水 善 利 万 物 而 不 争 。 


数据 一 如 水 ， 无 色 无 味 ， 非 方 非 圆 ， 以 百 态 存 于 自然 ， 于 自然 无 违 也 。 绵 绵 密 密 ， 微 则 无 声 ， 巨 则 济 涌 ; 与 人 无 争 却 又 容纳 万 物 。 


生活 离 不 开水 ， 同 样 离 不 开 数 据 ， 我 们 被 数据 包围 ， 在 数据 中 生活 ， 在 数据 中 入 梦 和 清醒 。 


某 夜 入 梦 时 分 ， 趴 桌 而 眠 ， 偶 遇 庄 周 那 只 彩色 地 膀 的 蝴蝶 飞 入 梦 中 ， 在 数据 上 翩翩 起 舞 ; 清醒 时 分 ， 蝴 蝶 化 身 数 据 ， 继 续 在 眼前 飞舞 ， 顿 悟 大 数据 之 哲学 。 本 书 从 《道德 经 》 和 《庄子 》 各 精 选 10 句 名 
， 并 结合 大 数据 相关 内 容 ， 对 名 言 加 以 讲解 ， 引 导 大 家 以 老 庄 的 思考 方式 来 认识 大 数据 的 内 涵 ， 探 求 老子 道 之 路 和 庄子 智慧 之 路 。 


niil 


为 什么 要 写 这 本 书 
2014 年 春天 ， 我 所 在 的 知识 云 团 队 聚 焦 大 数据 ， 调 研 过 程 中 ， 深 深 感觉 到 国内 资料 匡 乏 ， 可 供 参 考 的 资料 仪 是 Spark 官 方 文档 。 团 队 人 员 英 文 水 平 参 差 不 齐 ，Spark 官 方 文档 门槛 比较 高 ， 学 习 起 来 困难 
重重 。 


当时 和 几 个 同事 一 起 ， 对 Spark 官 方 文档 进行 了 翻译 ， 参 考 了 机 械 工业 出 版 社 《Spark 快 速 数 据 处 理 》 的 小 册子 , 编 了 一 本 《Spark 数 据 处 理 》 内 部 文档 ， 解 决 了 一 部 分 问题 ， 并 将 Spark 应 用 推 向 具体 
业务 。 在 实际 业务 中 ， 相 比 传统 的 数据 处 理 ， 尤 其 是 实时 处 理 和 从 代 计算 ，MapReduce 在 Spark 面 前 显得 苑 白 无 力 。 随 着 Spark 的 应 用 越 来 越 多 ， 深 深 感 觉 到 《Spark 数 据 处 理 》 内 部 文档 的 不 足 ， 遗 憾 的 
是 , 一直 没 有 时 间 进 行 补充 和 完善 ， 倪 然 成 了 一 块 心病 。 


2014 年 9 月 ， 在 机 械 工业 出 版 社 华 章 公司 福 川 兄 的 指导 下 ， 开 始 重点 思索 : Spark 解 决 哪些 问题 、 优 势 在 哪里 、 从 业 人 员 遇 到 哪些 困难 、 如 何 解决 这 些 困 难 等 问题 ， 并 得 到 了 吴 爱 华 、 吕 劲松 、 代 其 锋 、 
马 海平 、 向 海 、 陈 明 磊 等 几 位 同事 的 支持 。 怀 着 一 颗 “ 附 庸 风雅 ”之 心 ， 我 决定 和 大 家 一 起 写 一 本 具有 一 定 实 战 价值 的 Spark 方 面 的 书籍 。 


当前 大 数据 从 业者 ， 有 数据 科学 家 、 算 法 专家 、 来 自 互 联网 的 程序 员 、 来 自传 统 行业 的 工程 师 等 ， 无 论 来 自 哪里 ， 作 为 新 一 代 轻 量 级 计算 框架 ，Spark 集 成 Spark SQL, Spark Streaming, MLlib, 
GraphX、sparkR 等 子 框 架 ， 都 提供 了 一 种 全 新 的 大 数据 处 理 方式 ， 让 从 业者 的 工作 变 得 越 来 越 便 捷 ， 也 让 机 器 学 习 、 数 据 挖 掘 等 算法 变 得 “接地 气 ”。 数 据 科 学 家 和 算法 专家 越 来 越 了 解 社会 ， 程 序 员 和 
工程 师 有 了 逆 袭 的 机 会 。 


本 书写 作 过 程 中 ，Spark 版 本 从 1.0 一 直 变 化 到 1.5， 秉 承 大 道 至 简 的 主导 思想 ， 我 们 尽 可 能 地 按照 1.5 版 本 进行 了 统筹 ， 希 望 能 抛砖引玉 ， 以 个 人 的 一 些 想法 和 见解 ， 为 读者 拓展 出 更 深入 、 更 全 面 的 思 
路 。 


本 书 只 是 一 个 开始 ， 大 数据 之 漫漫 雄关 ， 还 需要 迈步 从 头 越 。 
本 书 特 色 

本 书 虽 是 大 数据 相关 书籍 ， 但 对 传统 文化 进行 了 一 次 缅怀 ， 吸 收 传统 文化 的 精华 ， 精 选 了 《道德 经 》 和 《庄子 》 各 10 名 名言， 实现 大 数据 和 文学 的 有 效 统一 。 结 合 老子 的 “无 为 ”和 庄子 的 “天 人 合 
一 ”思想 ， 引 导读 者 以 辩证 法 思考 方式 来 认识 大 数据 的 内 涵 ， 探 求 老子 道 之 路 和 庄子 智慧 之 路 ， 在 大 数据 时 代 传承 “ 老 庄 哲学 ”， 让 中 国 古 代 典 籍 中 的 瑰宝 继续 发 扬 下 去 。 


从 技术 层面 上 ，spark 作 为 一 个 快速 、 通 用 的 大 规模 数据 处 理 引 警 ， 凭 借 其 可 伸缩 、 基 于 内 存 计算 等 特点 ， 以 及 可 以 直接 读 写 HDFS 上 数据 的 优势 ， 实 现 了 批 处理 时 更 加 高 效 、 延 迟 更 低 ， 已 然 成 为 轻 量 
级 大 数据 快速 处 理 的 统一 平台 。Spark 集 成 Spark SQL, Spark streaming、MLlib、GraphX、sparkR 等 子 框架 ， 并 且 提 供 了 全 新 的 大 数据 处 理 方式 ， 让 从 业者 的 工作 变 得 越 来 越 便捷 。 本 书 从 基础 讲 起 ， 
针对 性 地 给 出 了 实战 场景 ; 并 围绕 DataFrame， 兼 顾 在 Spark SQL 和 Spark ML 的 应 用 。 


从 适合 读者 阅读 和 掌握 知识 的 结构 安排 上 讲 ， 分 为 “基础 篇 ”、“ 实 战 篇 ”、 “高 级 篇 ” 、“ 扩 展 篇 ”四 个 维度 进行 编写 ， 从 基础 引出 实战 ， 从 实战 过 渡 高 级 ， 从 高 级 进行 扩展 ， 层 层 推进 ， 便 于 读者 
展开 讨论 ， 深 入 理解 分 析 ， 并 提供 相应 的 解决 方案 。 


本 书 的 案例 都 是 实际 业务 中 的 抽象 ， 都 经 过 具体 的 实践 。 作 为 本 书 的 延续 ， 接 下 来 会 针对 Spark 机 器 学 习 部 分 进行 拓展 ， 期 待 和 读者 早点 见面 。 
读者 对 象 


(1) 对 大 数据 非常 感 兴趣 的 读者 


伴随 着 大 数据 时 代 的 到 来 ， 很 多 工作 都 变 得 和 大 数据 息息相关 ， 无 论 是 传统 行业 、IT 行 业 以 及 移动 互联 网 行业 ， 都 必须 要 了 解 大 数据 的 概念 ， 对 这 部 分 人 员 来 说 ， 本 书 的 内 容 能 够 帮助 他 们 加 深 对 大 数 
据 生 态 环境 和 发 展 趋势 的 理解 ， 通 过 本 书 可 以 了 解 Spark 使 用 场景 和 存在 价值 ， 充 分 体验 和 实践 Spark 所 带 来 的 乐趣 ， 如 果 和 希望 继续 学 习 Spark 相 关 知识 ， 本 书 可 以 作为 一 个 真正 的 开始 。 


(2) 从 事 大 数据 开 上 友 的 人 员 


Spark 是 类 Hadoop MapReduce 的 通用 并 行 计算 框架 ， 基 于 MapReduce 算 法 实现 的 分 布 式 计算 ,拥有 Hadoop MapReduce 所 具有 的 优点 ， 并 且 克 服 了 MapReduce 在 实时 查询 和 和 迭代 计算 上 较 大 的 
不 足 ， 对 这 部 分 开发 人 员 ， 本 书 能 够 拓展 开发 思路 ， 了 解 Spark 的 基本 原理 、 编 程 思 想 、 应 用 实现 和 优 缺 点 ， 参 考 实 际 企业 应 用 经 验 ， 减 少 自己 的 开发 成 本 ， 对 生产 环境 中 遇 到 的 技术 问题 和 使 用 过 程 中 的 
性 能 优化 有 很 好 的 指导 作用 。 


(3) 从 事 大 数据 运 维 的 人 员 


除了 大 数据 相关 的 开发 之 外 ， 如 何 对 数据 平台 进行 部 署 、 保 障 运行 环境 的 稳定 、 进 行 性 能 优化 、 合 理 利 用 资源 ， 也 是 至 关 重 要 的 ， 对 于 一 名 合格 的 大 数据 运 维 人 员 来 说 ， 适 当 了 解 Spark 框 架 的 编程 思 
想 、 运 行 环境 、 应 用 情况 是 十 分 有 帮助 的 ， 不 仅 能 够 很 快 地 排查 出 各 种 可 能 的 故障 ， 也 能 够 让 运 维 人 员 和 开发 人 员 进行 有 效 的 沟通 ， 为 推进 企业 级 的 运 维 管理 提供 参考 依据 。 


(4) 数据 科学 家 和 算法 研究 者 

基于 大 数据 的 实时 计算 、 机 器 学 习 、 图 计算 等 是 互联 网 行业 比较 热门 的 研究 方向 ， 这 些 方向 已 经 有 一 些 探索 成 果 ， 都 是 基于 Spark 实 现 的 ， 这 部 分 研究 人 员 通 过 本 书 的 阅读 可 以 加 深 对 Spark 原 理 与 应 用 
场景 的 理解 ， 对 大 数据 实时 计算 、 机 器 学 习 、 图 计算 等 技术 框架 研究 和 现 有 系统 改进 也 有 很 好 的 参考 价值 ， 借 此 降低 学 习 成 本 ， 往 更 高 层次 发 展 。 
如 何 阅读 本 书 

本 书 分 为 四 篇 ， 共 计 20 章 内 容 。 


基础 篇 (第 1~10 章 ) ， 详 细 说 明 什 么 是 Spark、Spark 的 重要 扩展 、Spark 的 部 署 和 运行 、Spark 程 序 开 发 、Spark 编 程 模型 以 及 Spark 作 业 执行 解析 .。 


实战 篇 (第 11~ 14 章 ) ， 重 点 讲解 Spark SQL 与 DataFrame、Spark Streaming, Spark MLlib 与 Spark ML、GraphX、SparkR， 以 及 基于 以 上 内 容 实 现 大 数据 分 析 、 系 统 资源 统计 、LR 模 型 、 二 级 邻 
居 关 系 图 获取 等 方面 的 实战 案例 。 


高 级 篇 (第 15~18 章 ) ， 深 入 讲解 Spark 调 度 管理 、 存 储 管理 、 监 控 管 理 、 性 能 调 优 。 
扩展 篇 (第 19~20 章 ) ， 介 绍 Jobserver 和 Tachyon 在 Spark 上 的 使 用 情况 。 
其 中 ， 第 二 部 分 实战 篇 为 本 书 重点 ， 如 果 你 没有 充足 的 时 间 完 成 全 书 的 阅读 ， 可 以 选择 性 地 进行 重点 章节 的 阅读 。 如 果 你 是 一 位 有 着 一 定 经 验 的 资深 人员 ， 本 书 有 助 于 你 加 深 基础 概念 和 实战 应 用 的 理 


解 。 如 果 你 是 一 名 初学 者 ， 请 在 从 基础 篇 知识 开始 阅读 。 


勘误 和 支持 


由 于 笔者 的 水 平 有 限 ， 编 写 时 间 仓促 ， 书 中 难免 会 出 现 一 些 错 误 或 者 不 准确 的 地 方 ， 有 恳请 读者 批评 指正 。 如 果 你 有 更 多 的 宝贵 意见 ， 可 以 通过 Spark 技 术 QQ 交 流 群 435263033， 或 者 邮箱 
ustcyujun@163.com 联 系 到 我 ， 期 待 能 够 得 到 你 们 的 真挚 反馈 ， 在 技术 之 路 上 互 勉 共 进 。 
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感谢 我 亲爱 的 搭档 向 海 、 代 其 锋 、 马 海平 三 位 大 数据 专家 ， 在 本 书写 作 遭 遇 困 惑 的 时 候 ， 一 直 互 相 鼓励 ， 对 本 书写 作 坚 持 不 放弃 。 


感谢 知识 云 团队 的 范 仲 闹 、 杨 志 远 、 万 文 强 、 张 东明 、 周 烟 晨 、 吴 增 锋 、 韩 启 红 、 目 劲松 、 张 业 胜 ， 以 及 贡献 智慧 的 陈 明 客 、 林 3A 杰 、 王 文 庭 、 刘 君 、 汪 歼 、 王 庆 庆 等 小 伙伴 ， 由 于 你 们 的 参与 使 本 书 
完成 成 为 可 能 。 


感谢 机 械 工 业 出 版 社 华章 公司 的 首席 策划 杨 福 川 和 编辑 高 婧 牙 ， 在 近 一 年 的 时 间 中 始终 支持 我 们 的 写作 ， 你 们 的 鼓励 和 帮助 引导 我 们 顺利 完成 全 部 书稿 。 


最 后 ， 特 别 感谢 我 的 老婆 杨 丽 静 ， 在 宝宝 出 生 期 间 ， 因 为 麻醉 意外 躺 在 病房 一 个 月 多 的 时 间 里 ， 以 微笑 的 生活 态度 鼓励 我 ， 时 时 刻 刻 给 我 信心 和 力量 ; 还 有 我 可 爱 的 宝宝 于 潇 杨 ， 让 我 的 努力 变 得 有 意 


谨 以 此 书 献 给 我 杀 爱 的 家 人 ， 知 识 云 团队 的 小 伙伴 ， 以 及 众多 热爱 Spark 技 术 的 朋友 们 ! 
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基础 篇 


` 第 1 章 Spa 水 简介 

` 第 2 章 Spa 水 部 署 和 运行 

` 第 3 章 ” ”Spa 水 程序 开发 

-BAT ”编程 模型 

CASE ”作业 执行 解析 

: 第 6 章 Spark SQL 与 DataFrame 

. 第 7 章 深入 了 解 Spatk Streaming 
` 第 8 章 Spark MLlib 与 机 器 学 习 

| 第 9 章 ”GraphX 图 计算 框架 与 应 用 


第 10 章 SparkR (R on Spark) 


第 1 章 Sparki 


上 普 若 水 ， 水 善 利 万 物 而 不 争 。 
一 一 《道德 经 》 第 八 章 
数据 一 如 水 ， 无 色 无 味 ， 非 方 非 圆 ， 以 百 态 存 于 自然 ， 于 自然 无 违 也 。 绵 绵 密 密 ， 微 则 无 声 ， 巨 则 鸿 涌 ; 与 人 无 争 却 又 容纳 万 物 。 
生活 离 不 开水 ， 同 样 离 不 开 数 据 ， 我 们 被 数据 包围 ， 在 数据 中 生活 。 当 数据 越 来 越 多 时 ， 就 成 了 大 数据 。 
想 要 理解 大 数据 ， 就 需要 理解 大 数据 相关 的 查询 、 处 理 、 机 器 学 习 、 图 计算 和 统计 分 析 等 ，Spark 作 为 新 一 代 轻 量 级 大 数据 快速 处 理 平台 ， 集 成 了 大 数据 相关 的 各 种 能 力 ， 是 理解 大 数据 的 首选 。 


现在 ， 让 我 们 以 向 大 师 致敬 的 方式 开始 学 习 之 旅 ， 向 Doug Cutting 和 Matei Zaharia 两 位 大 师 致敬 ! 


1.1 什么 是 Spark 


说 起 大 数据 ， 很 多 人 会 想起 Doug Cutting 以 自己 儿子 玩具 小 象 命名 的 开源 项 目 Hadoop。Hadoop 解 决 了 大 多 数 批 处 理工 作 负载 问题 ， 成 为 了 大 数据 时 代 企业 的 首选 技术 。 但 随 着 大 数据 时 代 不 可 逆 的 
演进 ， 人 们 发 现 ， 由 于 一 些 限 制 ，Hadoop 对 一 些 工作 负载 并 不 是 最 优选 择 ， 比 如 : 


- 缺少 对 迁 代 的 支持 ; 
-中间 数 据 需 输出 到 硬盘 存储 ， 产 生 了 较 高 的 延迟 。 
探 其 究竟 ，MapReduce 设 计 上 的 约束 比较 适合 处 理 离线 数据 ， 在 实时 查询 和 和 迭代 计算 上 存在 较 大 的 不 足 ， 而 随 着 具体 业务 的 发 展 ， 业 界 对 实时 查询 和 人 迭代 计算 有 更 多 的 需求 。 


2009 年 ， 美 国 加 州 大 学 伯克利 分 校 实 验 室 小 伙伴 们 基于 AMPLab 的 集群 计算 平台 ， 立 足 内 存 计算 ， 从 多 迭代 批量 处 理 出 帮 ， 兼 顾 数据 仓库 、 流 处 理 、 机 器 学 习 和 图 计算 等 多 种 计算 范式 ， 正 式 将 Spark 
作为 研究 项 目 ， 并 于 2010 年 进行 了 开源 。 


什么 是 Spark? Spark 作 为 Apache 顶 级 的 开源 项 目 ， 是 一 个 快速 、 通 用 的 大 规模 数据 处 理 引 擎 ， 和 Hadoop 的 MapReduce 计 算 框架 类 似 ， 但 是 相对 于 MapReduce，Spark 凭 借 其 可 伸缩 、 基 于 内 存 计 
算 等 特点 ， 以 及 可 以 直接 读 写 Hadoop 上 任何 格式 数据 的 优势 ， 进 行 批 处 理 时 更 加 高 效 ， 并 有 更 低 的 延迟 。 相 对 于 “one stack to rule them all” 的 目标 ， 实 际 上 ，Sspark 已 经 成 为 轻 量 级 大 数据 快速 处 理 
的 统一 平台 ， 各 种 不 同 的 应 用 ， 如 实时 流 处 理 、 机 器 学 习 、 交 互 式 查询 等 ， 都 可 以 通过 Spark 建 立 在 不 同 的 存储 和 运行 系统 上 ， 下 面 我 们 来 具体 认识 一 下 Spark。 


1.1.1 概述 


随 着 互联 网 的 高 速 友 展 ， 以 大 数据 为 核心 的 计算 框架 不 断 出 现 ， 从 支持 离线 的 MapReduce 席 卷 全 球 ， 到 支持 在 线 处 理 的 Storm 异 军 突起 ， 支 持 迭 代 计 算 的 Spark 攻 城 拔 寨 ， 支持 高 性 能 数据 挖掘 的 MPI 
深耕 细作 。 各 种 框架 诞生 于 不 同 的 实验 室 或 者 公司 ， 各 有 所 长 ， 各 自 解 决 了 某 一 类 问题 ， 而 在 一 些 互联 网 公司 中 ， 百 家 争鸣 ， 各 种 框架 同时 被 使 用 ， 比 如 作者 所 在 公司 的 大 数据 团队 ， 模 型 训练 和 数据 处 理 
采用 MapReduce 框 架 (包括 基于 Hive 构 建 的 数据 仓库 查询 的 底层 实现 ) ， 实 时 性 要 求 较 高 的 线 上 业务 采取 storm， 日 志 处 理 以 及 个 性 化 推荐 采取 Spark， 这 些 框架 都 部 署 在 统一 的 数据 平台 上 ， 共 享 集群 存 
储 资 源 和 计算 资源 ， 形 成 统一 的 轻 量 级 弹性 计算 平台 。 


1.1.2 Spark 大 数据 处 理 框架 


相 较 于 国内 外 较 多 的 大 数据 处 理 框架 ，Spark 以 其 低 延 时 的 出 色 表现 ， 正 在 成 为 继 Hadoop 的 MapReduce 之 后 ， 新 的 、 最 具 影 响 的 大 数据 框架 之 一 ， 图 1-1 所 示 为 以 Spark 为 核心 的 整个 生态 圈 ， 最 底层 
为 分 布 式 存储 系统 HDFS、Amazon 93、Hypertable， 或 者 其 他 格式 的 存储 系统 (如 HBase) ; 资源 管理 采用 Mesos、YARN 等 集群 资源 管理 模式 ， 或 者 Spark 自 带 的 独立 运行 模式 ， 以 及 本 地 运行 模式 。 在 
spark 大 数据 处 理 框架 中 ，Spark 为 上 层 多 种 应 用 提供 服务 。 例 如 ，spark SQL 提供 SQL 查询 服务 ， 性 能 比 Hive 快 3~50 倍 ; MLlib 提 供 机 器 学 习 服务 ; GraphX 提 供 图 计算 服务 ; Spark streaming 将 流 式 计 
算 分 解 成 一 系列 短小 的 批 处 理 计算 ， 并 且 提 供 高 可 靠 和 吞吐 量 服务 。 值 得 说 明 的 是 ， 无 论 是 Spark SQL, Spark streaming、GraphX 还 是 MLlib， 都 可 以 使 用 Spark 核 心 API 处 理 问 题 ， 它 们 的 方法 几乎 是 通 
用 的 ， 处 理 的 数据 也 可 以 共享 ， 不 仅 减少 了 学 习 成 本 ， 而 且 其 数据 无 颖 集成 大 大 提高 了 灵活 性 。 
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基于 Hadoop 的 资源 管理 器 YARN 实 际 上 是 一 个 弹性 计算 平台 ， 作 为 统一 的 计算 资源 管理 框架 ， 不 仅仅 服务 于 MapReduce 计 算 框架 ， 而 且 已 经 实现 了 多 种 计算 框架 进行 统一 管理 。 这 种 共享 集群 资源 的 
模式 带 来 了 很 多 好 处 。 


. 资源 利用 率 高 。 多 种 框架 共享 资源 的 模式 有 效 解决 了 由 于 应 用 程序 数量 的 不 均衡 性 导致 的 高 峰 时 段 任 务 比 较 拥 挤 ， 空 闲 时 段 任务 比较 空闲 的 问题 ; 同时 均衡 了 内 存 和 CPU 等 资源 的 利用 。 


. 实现 了 数据 共享 。 随 着 数据 量 的 增加 ， 数 据 移动 成 本 越 来 越 高 ， 网 络 带 宽 、 磁 栓 空间、 磁盘 IO 都 会 成 为 瓶颈 ， 在 分 散 数 据 的 情况 下 ， 会 造成 任务 执行 的 成 本 提高 ， 获 得 结果 的 周期 变 长 ， 而 数据 共享 
模式 可 以 让 多 种 框架 共享 数据 和 硬件 资源 ， 大 幅度 减少 数据 分 散 带 来 的 成 本 。 


- 有 效 降 低 运 维和 管理 成 本 。 相 比较 一 种 计算 框架 需要 一 批 维护 人 员 ， 而 运 维 人 员 较 多 又 会 带 来 的 管理 成 本 的 上 升 ; 共享 模式 只 需要 少数 的 运 维 人 员 和 管理 人 员 即 可 完成 多 个 框架 的 统一 运 维 管理 ， 便 


于 运 维 优化 和 运 维 管理 策略 统一 执行 。 
总 之 ，Spark 凭 借 其 良好 的 伸缩 性 、 快 速 的 在 线 处 理 速 度 、 具 有 Hadoop 基 因 等 一 系列 优势 ， 迅 速成 为 大 数据 处 理 领 域 的 佼佼 者 。Apache Spark 已 经 成 为 整合 以 下 大 数据 应 用 的 标准 平台 : 
` 交互 式 查询 ， 包 括 SQL; 
“ 实时 流 处 理 ; 
- 复杂 的 分 析 ， 包 括 机 器 学 习 、 图 计算 ; 


| 批 处 理 。 


1.1.3 Spark 的 特点 


作为 新 一 代 轻 量 级 大 数据 快速 处 理 平台 ，Spark 具 有 以 下 特点 : 


. 快速 。Spatk 有 先进 的 DAG 执 行 引 擎 ， 支 持 循环 数据 流 和 内 存 计算 ; Spatk 程 序 在 内 存 中 的 运行 速度 是 Hadoopb MapReduce 运 行 速 度 的 100 倍 ， 在 磁盘 上 的 运行 速度 是 Hadoob MapReduce 运 行 速度 的 10 倍 ， 


如 图 1-2 所 示 。 
: 易 用 。Spa 三 支持 使 用 Java、Scala、Python 语 言 快速 编写 应 用 ， 提 供 超 过 80 个 高 级 运算 符 ， 使 得 编写 并 行 应 用 程序 变 得 容易 。 


. 通用 。Spakk 可 以 与 SQL、Streaming 以 及 复杂 的 分 析 良 好 结合 。 基 于 Spatk， 有 一 系列 高 级 工具 ， 包 括 Spatk SQL. MIlib (机 器 学 习 库 ) 、GraphX 和 Spark Streaming， 支 持 在 一 个 应 用 中 同时 使 用 这 些 架 


构 ， 如 图 1-3 所 示 。 


120 


90 


| Cs) 


m Hadoop 


" 


60 
Spark 


30 


运行 时 | 


0.9 
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图 1-3 Spa 水 高 级 工具 架构 
. 有 效 集 成 Hadoop。Spatk 可 以 指定 Hadoop，YARN 的 版 本 来 编译 出 合适 的 发 行 版 本 ，Spa 永 也 能 够 很 容易 地 运行 在 EC2、Mesos 上 ， 或 以 Standalone 模 式 运行 ， 并 从 HDFS、HBase、Cassandra 和 其 他 


Hadoop 数 据 源 读 取 数据 。 


1.1.4 Spark 应 用 场景 


spark 使 用 了 内 存 分 布 式 数 据 集 ， 除 了 能 够 提供 交互 式 查询 外 ， 还 优化 了 和 迭代 工作 负载 ， 在 Spark SQL, Spark streaming、MLlib、GraphX 都 有 自己 的 子 项 目 。 在 互联 网 领域 ，Spark 在 快速 查询 、 实 
时 日 志 采 集 处 理 、 业 务 推荐 、 定 制 广告 、 用 户 图 计算 等 方面 都 有 相应 的 应 用 。 国 内 的 一 些 大 公司 ， 比 如 阿里 巴巴 、 腾 讯 、Intel、 网 易 、 科 大 讯 飞 、 百 分 点 科技 等 都 有 实际 业务 运行 在 Spark 平台 上 。 下 面 简 
要 说 明 Spark 在 各 个 领域 中 的 用 途 。 


` 快速 查询 系统 ， 基 于 日 志 数 据 的 快速 查询 系统 业务 构建 于 Spatk 之 上 ， 利 用 其 快速 查询 以 及 内 存 表 等 优势 ， 能 够 承担 大 部 分 日 志 数 据 的 即时 查询 工作 ; 在 性 能 方面 ， 普 遍 比 Hive 快 2~10 倍 ， 如 果 使 用 内 
存 表 的 功能 ， 性 能 将 会 比 Hive 快 百 信 。 


. 实时 日 志 采 集 处 理 ， 通 过 Spatk Streaming 实 时 进行 业务 日 志 采 集 ， 快 速 先 代 处 理 ， 并 进行 综合 分 析 ， 能 够 满足 线 上 系统 分 析 要 求 。 
. 业务 推荐 系统 ， 使 用 Spatk 将 业务 推荐 系统 的 小 时 和 天 级 别 的 模型 训练 转变 为 分 钟 级 别 的 模型 训练 ， 有 效 优化 相关 排名 、 个 性 化 推荐 以 及 热点 点 击 分 析 等 。 


` 定制 广告 系统 ， 在 定制 广告 业务 方面 需要 大 数据 做 应 用 分 析 、 效 果 分 析 、 定 向 优化 等 ， 借 助 Spa 引 快速 选 代 的 优势 ， 实 现 了 在 “数据 实时 采集 、 算 法 实时 训练 、 系 统 实 时 预测 ”的 全 流程 实时 并 行 高 维 


算法 ， 支 持 上 亿 的 请 求 量 处 理 ; 模拟 广告 投放 计算 效率 高 、 延 迟 小 ， 同 MapReduce 相 比 延 迟 至 少 降低 一 个 数量 级 。 


. 用 户 图 计算 。 利 用 GraphX 解 决 了 许多 生产 问题 ， 包 括 以 下 计算 场景 : 基于 度 分 布 的 中 枢 节 点 发 现 、 基 于 最 大 连通 图 的 社区 发 现 、 基 于 三 角形 计数 的 关系 衡量 、 基 于 随机 游 走 的 用 户 属性 传播 等 。 


1.2 ”Spark 的 重要 扩展 

大 家 知道 ， 在 Hadoop 中 完成 即席 查询 (ad-hoc queries) 、 批 处 理 (batch processing) ， 流 式 处 理 (stream processing) ， 需 要 构建 不 同 的 团队 ， 每 个 团队 需要 不 同 的 技术 和 经 验 ， 很 难 做 到 共 
享 。 而 Spark 实 现 了 平台 融合 ， 一 个 基础 平台 解决 所 有 的 问题 ， 一 个 团队 拥有 相同 的 技术 和 经 验 完成 所 有 的 任务 。 

基于 Spark 的 基础 平台 扩展 了 5 个 主要 的 Spark 库 ， 包 括 支 持 结构 化 数据 的 Spark SQL、 处 理 实时 数据 的 Spark Streaming、 用 于 机 器 学 习 的 MLlibp、 用 于 图 计算 的 GraphX、 用 于 统计 分 析 的 SparkR， 各 


种 程序 库 与 Spark 核 心 API 高 度 整 合 在 一 起 ， 并 在 持续 不 断 改进 。 


1.2.1 Spark SQL 和 DataFrame 


Spark SQL 是 Spark 的 一 个 处 理 结构 化 数据 的 模块 ， 提 供 一 个 DataFrame 编 程 抽象 。 它 可 以 看 作 是 一 个 分 布 式 SQL 查 询 引 擎 ， 主 要 由 Catalyst 优 化 、Spark SQL 内 核 、Hive 支 持 三 部 分 组 成 。 
相对 于 传统 的 MapReduce AP1，Spark 的 RDD API 有 了 数量 级 的 飞跃 ， 从 Spark SQL 1.3.0 开 始 ， 在 原 有 SchemaRDD 的 基础 上 提供 了 与 R 风 格 类 似 的 DataFrame API, 
DataFrame 是 以 指定 列 (named columns) 组 织 的 分 布 式 数据 集合 ， 在 Spark SQL 中 ， 相 当 于 关系 数据 库 的 一 个 表 ， 或 RMPython 的 一 个 数据 框架 ， 但 后 台 更 加 优化 。 


:二 /一 


DataFrames 支 持 多 种 数据 源 构 建 ， 包 括 : 结构 化 数据 文件 (Parquet, JSON) 加 载 、Hive 表 读 取 、 外 部 数据 库 读 取 、 现 有 RDD 转 化 ， 以 及 SQLContext 运 行 SQL 查 询 结 果 创 建 DataFrame， 如 图 1-4 所 


人 小。 


DataFrame 


图 1-4  DataFrame Zt JE f 78. 


新 的 DataFrame AP| 一 方面 大 幅度 降低 了 开发 者 学 习 门 槛 ， 同 时 支持 Scala、Java、Python 和 R 语 言 ， 且 支持 通过 Spark Shell, Pyspark Shell 和 SparkR Shell 提 交 任 务 。 由 于 来 源 于 
SchemaRDD，DataFrame 天 然 适 用 于 分 布 式 大 数据 场景 。 


关于 Spark SQL 更 具体 的 内 容 和 案例 会 在 后 面 第 6 章 详细 介绍 。 
1.2.2 Spark streaming 


Spark streaming 属 于 核心 Spark API 的 扩展 ， 它 支持 高 吞吐 量 和 容错 的 实时 流 数据 处 理 ， 它 可 以 接受 来 自 Kafka、Flume、Twitter、ZeroMQ 或 TCP socket 的 数据 源 ， 使 用 复杂 的 算法 表达 和 高 级 功 
能 来 进行 处 理 ， 如 Map、Reduce、Join、Window 等 ， 处 理 的 结果 数据 能 够 存 入 文件 系统 、 数 据 库 。 还 可 以 直接 使 用 内 置 的 机 器 学 习 算 法 、 图 形 处 理 算法 来 处 理 数据 ， 数 据 输入 /输出 示意 图 如 图 1-5 所 示 。 


Dashboards 


图 1-5 ”基于 Spark Streaming 的 数据 输入 /输出 示意 图 


Spark Streaming 的 数据 处 理 流程 如 图 1-6 所 示 ， 接 收 到 实时 数据 后 ， 首 先 对 数据 进行 分 批 次 处 理 ， 然 后 传 给 Spark Engine 处 理 ， 最 后 生成 该 批 次 最 后 的 结果 。 
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图 1-6 Æ F Spark Streaming 的 数据 处 理 流程 


Spark Streaming 提 供 一 种 名 为 离散 流 (DStream) 的 高 级 抽象 连续 数据 流 。DStream 和 直接 支持 Kafka、Flume 的 数据 源 创建 ， 或 者 通过 高 级 操作 其 他 DStream 创 建 ， 一 个 DStream 是 一 个 序列 化 的 
RDD。 


关于 Spark Streaming 更 具体 的 内 容 和 案例 会 在 第 7 章 详细 介绍 。 
1.2.3 Spark MLlib 和 ML 

MLlib 是 Spark 对 常用 的 机 器 学 习 算 法 的 实现 库 ， 同 时 包括 相关 的 测试 和 数据 生成 器 。MLlib 目 前 支持 4 种 常见 的 机 器 学 习 问 题 : 二 元 分 类 、 回 归 、 聚 类 和 协同 过 滤 ， 以 及 一 个 底层 的 梯度 下 降 优 化 基础 算 
法 。 


MLlib 基 于 RDD， 天 生 就 可 以 与 Spark SQL, GraphX, Spark Streaming 无 颖 集成 ，MLlib 是 MLBase 的 一 部 分 ，MLBase 通 过 边界 定义 ， 力 图 将 MLBase 打 造成 一 个 机 器 学 习 平 台 ， 让 机 器 学 习 开 发 的 
门槛 更 低 ， 让 一 些 并 不 了 解 机 器 学 习 的 用 户 也 能 方便 地 使 用 MLBase 这 个 工具 来 处 理 自己 的 数据 。 


MLIib 支 持 将 本 地 向 量 和 和 矩 阵 存储 在 单个 机 器 中 ， 也 包括 有 一 个 或 更 多 的 RDD 支 持 的 分 布 式 和 矩阵。 在 目前 的 实现 中 ， 本 地 向 量 和 矩 阵 都 是 为 公共 接口 服务 的 简单 数据 模式 ，MLlib 使 用 了 线性 代数 包 


Spark MLIib 架 构 由 底层 基础 、 算 法 库 和 应 用 程序 三 部 分 构成 。 底 层 基础 包括 Spark 的 运行 库 、 进 行 线性 代数 相关 技术 的 矩阵 库 和 向 量 库 。 算 法 库 包 括 Spark MLlib 实 现 的 具体 机 器 学 习 算法 ， 以 及 为 这 
些 算法 提供 的 各 类 评估 方法 ; 主要 实现 算法 包括 建立 在 广义 线性 回归 模型 的 分 类 和 回归 ， 以 及 协同 过 滤 、 聚 类 和 决策 树 。 在 最 新 的 Spark 1.5.0 版 本 中 还 新 增 了 基于 前 馈 神经 网 络 的 分 类 器 算法 
MultilayerPerceptronClassifier (MLPC) ， 频 繁 项 挖 扬 算法 PrefixSpan、AssociationRules， 实 现 Kolmogorov-Smirnov 检 验 等 等 算法 ， 随 着 版 本 的 演进 ， 算 法 库 也 会 越 来 越 强大 。 应 用 程序 包括 测试 数 
据 的 生成 以 及 外 部 数据 的 加 载 等 功能 。 


spark 的 ML 库 基 于 DataFrame 提 供 高 性 能 AP1， 帮 助 用 户 创建 和 优化 实用 的 机 器 学 习 流 水 线 (pipeline) ， 包 括 特征 转换 独 有 的 Pipelines API。 相 比较 MLlib， 变 化 主要 体现 在 : 
1) 从 机 器 学 习 的 Library 开 始 转向 构建 一 个 机 器 学 习 工 作 流 的 系统 ，ML 把 整个 机 器 学 习 的 过 程 抽 象 成 Pipeline， 一 个 Pipeline 是 由 多 个 Stage 组 成 ， 每 个 stage 是 Transformer 或 者 Estimator。 
2) ML 框架 下 所 有 的 数据 源 都 是 基于 DataFrame， 所 有 模型 也 尽量 都 基于 Spark 的 数据 类 型 表示 ，ML 的 API 操 作 也 从 RDD 向 DataFrame 全 面 转变 。 


关于 MLlib 和 ML 库 更 具体 的 内 容 和 案例 会 在 第 8 章 详细 介绍 。 


1.24 GraphX 


从 社交 网 络 到 语言 建 模 ， 图 数据 规模 和 重要 性 的 不 断 增 长 ， 推 动 了 数 不 清 的 新 型 并 行 图 系统 (例如 ，Giraph 和 GraphLab) 的 发 展 。 通 过 限制 可 以 表达 的 计算 类 型 和 引入 新 的 技术 来 分 着 和 分 发 图 ， 这 
些 系 统 可 以 以 高 于 普通 的 数据 并 行 系统 几 个 数量 级 的 速度 执行 复杂 的 图 算法 ， 如 图 1-7 所 示 。 


Property Graph 


esult 


图 1-7 基于 GraphX 的 并 行 图 计算 与 其 他 方式 的 比较 


GraphX 是 用 于 图 和 并 行 图 计算 的 新 Spark API。 从 上 层 来 看 ，GraphX 通 过 引入 弹性 分 布 式 属性 图 (resilient distributed property graph) 扩展 了 Spark RDD。 这 种 图 是 一 种 伪 图 ， 图 中 的 每 个 边 和 节 
点 都 有 对 应 的 属性 。 


为 了 支持 图 计算 ，GraphX 给 出 了 一 系列 基础 的 操作 (例如 ，subgraph、joinVertices、 和 MapReduceTriplets) 以 及 基于 Pregel API 的 优化 变 体 。 除 此 之 外 ，GraphX 还 包含 了 一 个 不 断 扩展 的 图 算法 
和 构建 器 集合 ， 以 便 简化 图 分 析 的 任务 。 


关于 GraphX 更 具体 的 内 容 和 案例 会 在 第 9 章 中 详细 介绍 。 


1.2.5 SparkR 


SparkR 是 AMPLab 发 布 的 一 个 R 开 发 包 ， 为 Apache Spark 提 供 了 轻 量 的 前 端 。SparkR 提 供 了 Spark 中 弹性 分 布 式 数 据 集 (RDD) 的 APl， 用 户 可 以 在 集群 上 通过 R shell 交 互 性 地 运行 Job。 例 如 ， 我 们 
可 以 在 HDFS 上 读 取 或 写 入 文件 ， 也 可 以 使 用 lapply 函 数 进行 方法 调用 ， 定 义 对 应 每 一 个 RDD 元 素 的 运算 。 


Spark 具 有 快速 (fast) 、 可 扩展 (scalable) 、 交 互 (interactive) 的 特点 ，R 具 有 统计 (statistics) 、 绘 图 (plots) 的 优势 ，R 和 Spark 的 有 效 结 合 ， 解 决 了 R 语 言 中 无 法 级 联 扩展 的 难题 ， 也 极 大 地 
富 了 Spark 在 机 器 学 习 方 面 能 够 使 用 的 Lib 库 。 


除了 常见 的 RDD 函 数 式 算 子 Reduce、reduceByKey、groupByKey 和 Collect 之 外 ，SparkR 也 支持 利用 lapplyWithPartition 对 每 个 RDD 的 分 区 进行 操作 。SparkR 也 支持 常见 的 闭 包 (closure) 功能 : 
用 户 定义 的 函数 中 所 引用 到 的 变量 会 自动 被 发 送 到 集群 中 的 其 他 的 机 器 上 。 


SparkR 的 工作 原理 如 图 1-8 所 示 ， 首 先 加 载 R 方 法 包 和 rJava 包 ， 然 后 通过 SparkR 初 始 化 SparkContext。 
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图 1-8 SpatkR 工 作 原 理 


关于 SparkR 处 理 数 据 挖 握 更 具体 的 内 容 和 案例 会 在 第 10 章 详细 介绍 。 


1.3 本章 小 结 


大 数据 以 及 相关 的 概念 、 技 术 是 业界 和 学 界 最 近 关 注 的 热点 ，Spark 在 其 中 扮演 了 非常 重要 的 角色 。 本 书 首先 对 Spark 大 数据 框架 进行 了 简单 的 介绍 ， 展 示 了 鞍 勃 发 展 的 Spark 大 数据 相关 的 特点 和 用 
途 ， 揭 开 了 Spark 整 个 生态 环境 的 神秘 面纱 。 并 在 此 基础 上 ， 向 读者 介绍 了 基于 Spark 的 重要 扩展 ， 包 括 Spark SQL 和 DataFrame、spark Streaming、MLlib 和 ML、GraphX、SparkR， 使 读者 对 Spark 能 
做 什么 有 个 初步 的 了 解 。 


第 2 章 ”Spark 部 署 和 运行 


bzi, ETER; 九 层 之 台 ， 起 于 累 土 ; 千里 之 行 ， 始 于 足下 。 

一 一 《道德 经 》 第 六 十 四 章 

合 抱 的 粗 木 ， 是 从 细 如 针 毫 时 长 起 来 的 ; 九 层 的 高 台 ， 是 一 偿 土 一 管 土 筑 起 来 的 ; 千里 的 行程 ， 是 一 步 又 一 步 迈 出 来 的 。 那么 ，Spa 高 手 之 路 ， 是 从 Spatk 部 署 和 运行 开始 的 ， 只 要 坚持 ， 就 一 定 会 有 收 
ik! 


对 于 大 部 分 想 学 习 Spark 的 人 而 言 ， 如 何 构建 稳定 的 Spark 集 群 是 学 习 的 重点 之 一 ， 为 了 解决 构建 Spark 集 群 的 困难 ， 本 章 内 容 从 简 入 手 ， 循 序 渐进 ， 主 要 包括 : 部 署 准备 工作 、 本 地 模式 部 署 、 独 立 模 
式 部 署 、YARN 模 式 部 署 ， 以 及 基于 各 种 模式 的 应 用 程序 运行 。 


很 多 优秀 的 集成 部 署 工具 值得 推荐 ， 如 cloudera manager， 但 是 本 章 重点 讲解 手动 部 署 ， 借 以 加 深 对 部 署 的 理解 。 部 署 完 毕 ， 可 以 直接 体验 一 下 运行 的 快感 ， 在 自我 陶醉 的 同时 ， 细 细 品 味 过 程 中 的 


2. 部署 准 备 
部 署 准备 工作 包括 下 载 Spark、 编 译 Spark 和 集群 部 署 ， 接 下 来 会 一 一 阐述 。 


2.1.1 下 载 Spark 


无 论 如 何 部 署 Spark， 首 先 必须 下 载 合 适 的 版 本 。sSpark 提 供 源码 压缩 包 和 编译 好 的 二 进 制 文件 压缩 包 。 本 书 的 内 容 主 要 以 Spark 1.5.0 版 本 为 基础 ， 熟 悉 SBT 和 Maven 编 译 的 读者 ， 建 议 尝 试 自己 编译 适 
合 的 版 本 。 

Spark 下 载 路 径 : http://spark.apache.org/downloads.html, 

Spark 下 载 步骤 如 下 : 

1) 选择 Spark 发 行 版 本 ， 截 止 到 本 书 编写 时 最 新 版 本 为 1.5.0; 


2) 选择 发 行 包 类 型 ， 可 以 选择 Source Code[can build several Hadoop versions]. Pre-built for Hadoop 2.6and later, Pre-built for Hadoop 2.4and later、Pre-built for Hadoop 2.3, Pre- 


built for Hadoop 1.X; 


3) 选择 下 载 方式 ， 包 括 Direct Download, Select Apache Mirror; 


4) 点 击 选 定 的 版 本 Download Spark。 


图 2-1 所 示 为 Spark 1.5.0 版 本 的 选择 与 下 载 过 程 。 


So Qf K Lightning-fast cluster computing 


Download Libraries ~ Documentation = Examples Community = FAQ 


Download Spark 
The latest release of Spark is Spark 1.5.0, released on September 9, 2015 (release notes) (git tag) 


Choose a Spark release: 1.5.0 (Sep 09 2015) 7 


Choose a package type: | Source Code [can build several Hadoop versions] 


Choose a download type: | Select Apache Mirror v 


Download Spark: spark-1.5.0.tgz 


图 2-1 Spbatk 选 择 与 下 载 步 又 图 


2.1.2 ”编译 Spark 版 本 
Spark 源 码 编译 主要 包括 : 使 用 SBT 编 译 和 使 用 Maven 编 译 两 种 方式 ， 编 译 的 前 置 条 件 是 配置 Java 环 境 变量 。 
1. 配 置 Java 环 境 变量 


如 果 没 有 配置 Java 环 境 ， 需 要 先 配 置 Java 环 境 变量 ， 从 Oracle 官 网 下 载 Java 版 本 。 
配置 步骤 如 下 : 

第 一 步 ， 安 装 Java 程 序 ， 主 要 包括 三 种 方式 : 

1) 下 载 安装 包 进行 安装 ; 

2) 通过 软件 源 执行 安装 命令 进行 安装 ; 

3) 直接 复制 相同 操作 系统 的 安装 文件 目录 (集群 部 署 时 一 般 采 取 这 种 模式 ) 。 
三 种 安装 方式 网 上 都 有 详细 的 参考 资料 。 


第 二 步 ， 配 置 Java 环 境 ， 使 用 vim 命 令 在 /etc/profile 文 件 中 增加 变量 ， 以 Ubuntu 12.04 操 作 系 统 为 例 ， 命 令 如 下 : 


sudo vim /etc/profile 

export JAVA HOME=SYOUR JAVA HOME4SYOUR JAVA HOME 为 实际 安装 路 径 
export PATH-S$PATH:$JAVA HOME/bin:$JAVA HOME/jre/bin 

export CLASSPATH-S$CLASSPATH:S$JAVA HOME/lib:$JAVA HOME/jre/lib 


如 果 想 立即 生效 ， 可 以 通过 运行 Source/etc/profile， 否 则 只 能 在 下 次 用 户 重 新 登录 加 载 环境 变量 时 生效 。 

第 三 步 ， 测 试 Java 环 境 : 

打开 终端 ， 输 入 java-version。 如 若 有 显示 Java 的 版 本 信息 ， 则 表示 安装 成 功 。 

注意 关于 JDK 的 环境 变量 配置 ， 一 般 包括 四 种 方式 : 

1) 在 用 户 环境 变量 文件 /etc/profile 文 件 中 添加 变量 ， 需 要 具有 toot 权 限 才 能 进行 配置 ， 对 Linux 下 所 有 用 户 长 期 有 效 。 
2) 在 用 户 目录 下 的 .ptofile 文 件 中 增加 变量 ， 对 当前 用 户 长 期 生效 。 


3) 直接 运行 expott 命 令 定 义 变量 ， 只 对 当前 shell 临 时 有 效 。 在 shell 的 命令 行 下 直接 使 用 [export 变 量 名 = 变量 值 ] 定 义 变量 ， 该 变量 只 在 当前 的 shell 或 其 子 shel 下 是 有 效 的 ， 若 shell 关 闭 ， 变 量 则 失效 ， 再 打 


开 新 shell 时 就 没有 这 个 变量 ， 若 需要 使 用 ， 则 还 需要 重新 定义 。 


4) 在 系统 环境 变量 /etc/envitonment 中 进行 配置 。 


2. 使 用 SBT 编 译 


Spark 使 用 SBT (simple build tool， 简 单 编 译 工 具 ) 进行 编译 ， 编 译 源 码 时 需要 花费 一 些 时 间 ， 如 果 没 有 安装 sbt，Spark 构 建 脚本 将 会 为 你 下 载 正 确 的 SBT 版 本 。 下 载 好 Spark 源 码 之 后 ， 在 源码 目录 
(默认 spark-1.5.0) 执行 打包 命令 : 


./sbt/sbt package 
如 果 底 层 人 存储 采用 HDFS， 而 其 版 本 又 和 Spark 默 认 的 版 本 不 一 致 ， 则 需要 修改 Spark 根 目录 所 在 的 project/SparkBuild.scala 文 件 中 的 HADOOP _VERSION， 然 后 重新 编译 。 执 行 重新 编译 命令 : 
./sbt/sbt clean compile 

从 源码 构建 Spark 将 人 花费 一 些 时 间 ， 当 编译 过 程 停顿 很 长 时 间 没 有 反应 之 后 ， 停 止 ， 然 后 重新 执行 ./sbt/sbt package 打 包 命令 。 


其 中 ，spark 的 SBT 文 件 工程 结构 中 包含 以 下 文件 : 


- project 工程 定义 文件 ; 


主要 的 工程 定义 文件 ; 


:btoject/build/.scala 


工程 ，SBT 以 及 Scala 版 本 定义 ; 


* project/build.propetties 


“stc/main 一 一 应 用 代码 目录 ， 不 同 的 子 目 录 名 称 表 示 不 同 的 编程 语言 (例如 ，stc/main/scala、 stc/main/java) ; 
- src/main/resources 你 想 添加 到 Jar 包 里 的 静态 文件 (如 日 志 配 置 文件 ) ; 


工程 所 依赖 的 Jat 文 件 存放 路 径 ， 在 SBT 更 新 时 添加 到 该 目录 ; 


: lib managed 


最 终生 成 的 文件 存放 的 目录 (例如 ， 生 成 的 thrift 代 码 、class 文 件 、Jar 文 件 ) o 


- target 


3. 使 用 Maven 编 译 


Maven 是 一 个 采用 纯 Java 编 写 的 开源 项 目 管理 工具 。Maven 采 用 POM (Project Object Model， 项 目 对 象 模型 ) 概念 来 管理 项 目 ， 所 有 的 项 目 配置 信息 都 被 定义 在 一 个 叫做 POM.xml 的 文件 中 ， 通 过 


该 文件 ，Maven 可 以 管理 项 目的 整个 声明 周期 ， 包 括 编译 、 构 建 、 测 试 、 发 布 、 报 告 等 。 目 前 Apache 下 绝 大 多 数 项 目 都 已 经 采用 Maven 进 行 管理 ，Maven 本 身 还 支持 多 种 插件 ， 可 以 更 加 方便 灵活 地 控制 
项 目 。 

使 用 Maven 编 译 流程 如 下 : 

1) Maven 下 载 : http://maven.apache.org/; 

2) Maven 配 置 : export M2 HOME-$your path; export PATH=$M2_ HOME/bin: $PATH; 

3) Maven? Spark, 


在 任意 目录 下 以 命令 行 的 形式 设置 Maven 人 参数。 其 中 ，-Xmx 为 Java 虚 拟 机 堆 内 人 存 最 大 允许 值 ，-XX: MaxPermsize 为 最 大 人 允许 的 非 堆 内 存 大 小 ，-XX: ReservedCodeCacheSize 为 缓存 大 小 。 


在 Spark 源 码 目 录 (默认 spark-1.5.0) 下 ， 编 译 参数 hadoop.version 可 根据 具体 版 本 修改 ， 编 译 Nexus 依 赖 可 以 通过 pom.xml 文 件 修改 ， 编 译 Spark 和 运行 环境 命令 如 下 : 


export MAVEN OPTS="-Xmx2g -XX:MaxPermSize-512M 
-XX:ReservedCodeCacheSize-512m" 
mvn -Pyarn -Phadoop-2.3 -Dhadoop.version-2.3.0 -DskipTests clean package 


2.1.3 ”集群 部 署 概述 

在 进行 Spark 编 程 之 前 ， 我 们 要 进行 Spark 集 群 部 署 ， 目 前 与 Spark 相 关 的 集群 环境 ， 也 就 是 集群 管理 器 (cluster manager) ， 主 要 包括 : Spark 自 带 的 Standalone 资 源 管 理 器 、Mesos 集 群 管理 器 和 
Hadoop YARN 资 源 管 理 器 。 

表 2-1 总 结 了 集群 部 署 和 运行 过 程 中 ， 可 能 会 使 用 到 的 集群 相关 基础 概念 ， 可 以 对 集群 部 署 和 运行 有 个 更 深刻 的 理解 。 


表 2-1 集群 相关 基础 概念 


2.2 


Application 


Application jar 


Driver program 
Cluster manager 
Deploy mode 


Worker node 


襄 明 
建立 在 Spark 上 的 用 户 应 用 程序 ， 由 一 个 Driver 程序 和 集群 上 的 Executors 组 成 


个 包含 用 户 Spark 应 用 程序 的 Jar 包 。 在 某 些 情况 下 ， 包含 应 用 程序 的 依赖 包 (不 包 
伟 在 运行 时 会 被 加 入 的 Hadoop 或 Spark IF ) 


驱动 程序 ， 运 行 main 图 数 并 创建 SparkContext 的 进程 
管理 集群 资源 的 外 部 服务 (独立 模式 管理 器 、Mesos 、YARN 等 ) 
岂 定 在 何 处 运行 Driver 进程 的 部 普 模 式 ， 分 为 Cluster 4I Client 两 种 柑 式 


集群 中 运行 应 用 程序 的 节点 


Executor 应 用 程序 在 Worker 节点 上 启动 的 进程 ， 该 进程 执行 任务 并 保持 数据 在 内 存 或 磁盘 中 
Task S AAT] Executor 的 一 个 工作 早死 

Job 作业 ， 一 个 Job 包含 多 个 RDD 及 作用 于 相应 RDD 上 的 各 种 Operation 
Stage 阶段 ， 每 个 Job 都 会 被 分 解 为 多 个 相互 依赖 的 任务 集合 

RDD 唱 性 分 布 式 数据 集 

Operation 作用 于 RDD 有 的 各 种 操作 ， 分 为 Transformation 和 Action 

Partition 效 据 分 区 ， 一 个 RDD 中 的 数据 可 以 分 成 多 个 不 同 的 分 区 

DAG 有 疝 无 环 图 ， 反 映 RDD 之 间 的 依赖 关系 

Narrow dependency Eiki, T RDD 依赖 父 RDD 中 国定 的 数据 分 区 

Wide dependency wiki, T RDD XA RDD 中 的 所 有 数据 分 区 都 有 依赖 

Caching management 缓存 管理 ， 对 RDD 的 中 间 计 算 结 果 进 行 缓存 管理 ， 以 加 快 整体 的 处 理 速度 
Spark 


spark 部 署 主要 包括 Local 模 式 部 署 、standalone 模 式 部 署 、YARN 模 式 部 署 、Mesos 模 式 部 署 (参考 官方 文档 ) 。 


其 中 ， 集 群 部 署 模式 如 下 : 


: Apache Mesos: 一 个 通用 的 集 


“ 独立 部 署 模式 : Spatk 自 带 的 一 种 简单 集群 管理 器 ， 使 用 该 集群 管理 器 可 以 轻松 地 建立 一 个 集群 ; 


集群 管理 器 ， 该 集群 管理 器 也 可 以 运行 MapReduce 和 服务 应 用 (实际 业务 没有 采取 该 种 架构 ， 本 书 没有 对 该 模式 进行 专门 讲解 ， 如 需要 了 解 ， 请 参考 官方 文档 ) ; 


: Hadoop YARN: Hadoop 2 中 的 资源 管理 器 ， 是 当前 主要 使 用 的 资源 管理 器 。 


除 此 之 外 ，Spark 的 EC2 启 动 脚本 使 得 在 Amazon EC2 上 启动 一 个 独立 模式 集群 变 得 容易 


2.2.1 


Local 模 式 部 署 


Local (本 地 ) 模式 下 部 署 Spark 应 用 程序 比较 简单 ， 可 以 用 于 检测 Spark 是 否 编译 安装 成 功 ， 需 要 配置 Java 环 境 变 量 和 设置 主 节点 。 


主 节 点 设置 步骤 如 下 : 


1) 进入 Spark 主 程序 的 conf 目 录 ， 执 行 : cd spark-1.5.0/conf。 


2) 以 spark-env.sh.template 文 件 为 模板 创建 spark-env.sh 文 件 。 


3) 修改 spark-env.sh 配 置 文件 : 


vi spark-env.sh 


export SPARK MASTER IP-$YOUR MASTER IP 
export JAVA HOME-SYOUR JAVA HOME 


4) 版 本 验证 ， 在 安装 完 


毕 Spark 并 配置 环境 变量 之 后 ， 在 任意 目录 下 运行 spark-shell 命 令 即 可 进入 Spark 命 令 行 模式 ， 此 时 出 现 的 大 段 文 字 中 会 提示 当前 的 Spark 版 本 ， 例 如 : 


Welcome to Spark version 1.5.0 
Using Scala version 2.10.4 


2.2.2 Standalone 模 式 部 署 


(Java HotSpot (TM) 64-Bit Server VM, Java 1.7.0 45) 


部 署 Standalone 模 式 Spark 集 群 步 骤 如 下 : 


1) 修改 spark-env.sh 配 置 文件 (参考 本 地 部 署 模式 ) 。 


vim spark-env.sh 
export SPARK MASTER IP-$YOUR MASTER IP 
export JAVA HOME-$YOUR JAVA HOME 


2) 在 Spark 目 录 下 创建 一 个 名 为 conf/slaves 的 文件 。 该 文件 需要 包含 所 有 将 要 启动 Spark Workers 的 机 器 的 hostname (主机 名 ) ， 每 行 一 个 。 


vim slaves 
# A Spark Worker will be started on each of the machines listed below. 
lave01 


oo wm Oo 
L3 Lara 
I 


3) 发 送 配 置 文件 spark-env.sh 和 Slaves 到 所 有 Worker 节 点 ， 以 slave02 为 例 : 


scp -r $SPARK HOME/conf/spark-env.sh slave02:/$SPARK HOME/conf/ 
scp -r S$SPARK HOME/slavesslave02:/S$SPARK HOME/conf/ 


4) 配置 Master 无 密 钥 登录 9laves 节 点 。 


Q@ 在 Master 节 点 和 所 有 Slaves 节 点 上 安装 openssh-server (以 Ubuntu 12.04 为 例 ) : 


sudo apt-get install openssh-server 


OSSH KEY: 


ssh-keygen -t rsa -P "" 


@ 在 Master 节 点 上 启用 SSH KEY (authorized keystWBR644) : 


cat SHOME/.ssh/id rsa.pub >> SHOME/.ssh/authorized keys 
sudo /etc/init.d/ssh reload 


@ 验 证 SSH 的 配置 : 

ssh localhost 

@ 将 Master 节 点 的 authorized_keys 发 送 到 所 有 的 Slaves 节 点 ， 并 登录 验证 。 

部 署 完毕 ， 可 以 通过 手动 启动 和 脚本 启动 集群 的 Master 和 Worker。 下 面 详细 介绍 一 下 Spark Standalone 模 式 集群 的 启动 以 及 启动 参数 的 功能 。 
1. 手 动 启动 集群 

通过 执行 下 面 的 命令 启动 Master 节 点 : 

./sbin/start-master.sh 


启动 之 后 ， 命 令 行 会 打印 出 一 个 spark: //HOST: PORT， 你 可 以 通过 该 信息 将 Worker 与 Master 连 接 ， 或 以 “master” 参 数 的 形式 传递 给 SparkContext 对 象 。 你 也 可 以 在 Master 的 WebUl 中 找到 这 
个 URL， 默 认 访问 地 址 是 http://localhost:8080。 


支持 启动 一 个 或 更 多 的 Worker， 然 后 通过 下 面 的 指令 与 Master 连 接 : 


./bin/spark-class org.apache.spark.deploy.worker.Worker park:// IP:PORT 

一 旦 启动 了 一 个 Worker 节 点 ， 在 Master 的 WebUl 中 (SAhttp://localhost:8080) ， 你 会 看 到 新 增 Worker 节 点 ， 以 及 CPU 数目 、 内 存 大 小 ( 减 去 1GB 留 给 系统 ) 在 列表 中 呈现 。 
2. 脚 本 启动 集群 

检查 Spark 目 录 下 的 conf/slaves 文 件 是 否 创建 ， 是 否 包含 了 所 有 工作 节点 机 器 的 hostname， 一 旦 建立 了 这 个 文件 ， 就 可 以 通过 下 面 的 shell 脚 本 在 Master 节 点 上 启动 或 终止 你 的 集群 。 

< sbin/start-master.sh: 在 脚本 运行 的 机 器 上 启动 一 个 Mastet 实 例 。 

“sbin/start-slaves.sh: 在 conf/slaves 文 件 中 指定 的 机 器 上 启动 一 个 Slaves 实 例 。 

: sbin/start-all.sh: 以 上 面 所 述 的 方式 启动 一 个 Master 和 一 定数 量 的 Slaves。 

- sbin/stop-master.sh: 停止 当前 通过 bin/start-master.sh 脚 本 启动 的 Master 实 例 。 

< sbin/stop-slaves.sh: 停止 在 conf/salves 文 件 中 指定 的 机 器 上 所 有 的 Slaves 实 例 。 

“sbin/stop-all.sh: 停止 当前 启动 的 Master 实 例 和 指定 的 Slaves 实 例 。 

执行 cd/spark-1.5.0/sbin 命 令 进 入 sbin 文 件 夹 ， 执 行 ./start-all.sh 可 以 启动 所 有 服务 器 上 的 Spark 相 关 进 程 。 

执行 jps 命 令 可 以 查看 当前 服务 器 正在 运行 的 进程 。 如 果 是 主 节 点 ， 可 以 看 到 Master 进 程 ; 如 果 是 子 节点 ， 可 以 看 到 Worker 进 程 。 这 样 就 表示 Spark 在 服务 器 上 全 部 配置 完毕 。 

可 以 通过 设置 spark-env.sh 中 的 环境 变量 进一步 配置 集群 ， 并 复制 到 所 有 的 Worker 机 器 上 以 使 设置 生效 ， 表 2-2 为 可 配置 的 spark-env.sh 中 的 环境 变量 。 


表 2-2 可 配置 的 spark-env.sh 中 的 环境 变量 


环境 变量 c 并 


SPARK MASTER IP HPE Master 的 一 个 特定 IP 地 址 

SPARK MASTER PORT 启动 Master 的 特定 端口 地 址 (默认 : 7077 ) 

SPARK MASTER WEBUI PORT Master 的 WebUI 的 端口 地 址 (默认 : 8080) 

SPARK MASTER OPTS 只 应 用 于 Master 的 配置 属性 (默认 : 未 设置 ) 
HFE “HT” ZEH, AfA map 输出 r eT FETE EA 

SPARK LOCAL DIRS RDD。 该 目录 应 该 是 系统 中 一 个 可 以 快速 读 写 的 本 地 磁盘 ， 该 属性 也 可 以 
一 串 由 如 号 阳 开 的 ， 位 于 不 同 磁盘 的 目录 列表 

SPARK WORKER CORES FIF Spark 应 用 程序 使 用 的 CPU 核心 的 数目 (默认 : 所 有 可 用 的 CPU f) 


允许 Spark 应 用 程序 使 用 的 总 内 存 大 小 (默认: 所 有 的 内 存 减 去 1GB ) 


SPARK WORKER MEMORY Noob MEAN MD ndo 
= 每 个 应 用 的 “独立 ”内 和 硬是 通过 spark.executor.memory 配置 的 


SPARK WORKER PORT 启动 Spark Worker 的 指定 端口 (默认: 随机 ) 
SPARK WORKER WEBUI PORT Worker 的 WebUI 的 端口 (默认 : 8081) 
SPARK WORKER INSTANCES 在 每 台 机 器 上 运行 的 Worker 实例 的 数目 (默认 : 1) 


运行 应 用 程序 的 目录 ， 该 目录 下 将 包含 日 志和 和 暂 存 空间 (默认 在 SPARK 


SPARK WORKER DIR T" 
一 一 HOME/work b) 


SPARK WORKER OPTS 只 应 用 于 Worker 的 配置 属性 GIGA: REEL ) 

SPARK DAEMON MEMORY 分 配给 Master 和 Worker 的 守护 进程 的 内 存 空间 (默认 : 512MB) 
SPARK DAEMON JAVA OPTS Spark Master 和 Worker 守护 进程 日 身 的 JVM 属性 

SPARK PUBLIC DNS Spark Master 和 Worker 的 公用 DNS 名 称 


2.2.3 YARN 模 式 部 署 


下 面 来 具体 讲解 如 何 基于 YARN 配 置 Spark 程 序 。 

(1) 准备 工作 

配置 Spark 之 前 ， 需 要 做 一 些 准备 工作 。 

首先 ,检查 hosts 文 件 ， 即 使 用 root 账 户 登录 服务 器 之 后 ， 在 任意 目录 下 执行 vim/etc/hosts 命 令 ， 查 看 需要 部 署 Spark 的 “服务 器 IP 机 器 名 ”是 否 已 存在 ,没有 请 添加 。 


其 次 ， 添 加 配置 文件 ， 同 样 是 在 任意 目录 下 执行 vim/etc/profile， 打 开 环境 变量 配置 文件 ， 将 SPARK_HOME 配 置 到 环境 变量 中 ， 具 体 如 下 所 示 。 


export SPARK HOME-/home/hadoop/spark-1.5.0 

export PATH-SPATH:$SPARK HOME/bin:$SPARK HOME/sbin 
export HADOOP CONF DIR-S$HADOOP HOME/etc/hadoop 
export YARN CONF DIR-$HADOOP HOME/etc/hadoop 


然后 ， 在 任意 目录 下 执行 source/etc/profile 命 令 让 环境 变量 生效 。 
(2) Spark 本 身 的 配置 
接 下 来 就 是 针对 Spark 本 身 的 配置 。 


首先 ， 进 入 Spark 中 的 conf 文 件 夹 ， 即 在 Spark 所 在 目录 执行 cd/spark-1.5.0/conf 命 令 。 打 开 spark-env.sh 文 件 ， 即 vim spark-env.sh， 添 加 : 


export JAVA HOME-$YOUR JAVA HOME 
export SPARK MASTER IP=$YOUR MASTER IP 


通过 这 一 项 配置 ， 可 以 确定 执行 Spark 程 序 时 的 主 节点 。 


接 下 来 ， 打 开 Slaves 文 件 ， 将 子 节点 的 IP 地 址 或 名 称 添加 到 该 文件 中 ， 完 成 Spark 的 IP 和 机 器 名 对 应 的 配置 。 


Vim slaves 
# A Spark Worker will be started on each of the machines listed below. 
lave01 


a 


UUU 
w 
< 
[0] 
[e 
w 


最 后 ， 需 要 将 spark-1.5.0 文 件 夹 、 环 境 变 量 配 置 文件 和 hosts 文 件 批量 发 送 到 配置 的 各 个 子 节点 的 服务 器 上 ， 表 批量 执行 Source/etc/profile 命 令 即 可 。 


按照 先 启 动 Hadoop， 表 启动 Spark 的 顺序 进行 启动 。 


23 ”运行 Spark 应 用 程序 
运行 Spark 应 用 程序 主要 包括 Local 模 式 运 行 、Standalone 模 式 运 行 、YARN 模 式 运 行 、Mesos 模 式 运行 (参考 官方 文档 ) 。 


2.3.1 ”Local 模 式 运行 Spark 应 用 程序 
Local 模 式 运行 Spark 应 用 程序 是 最 简单 的 方式 ， 以 计算 圆周 率 的 程序 为 例 ， 进 入 安装 主 目 录 ， 如 spark-1.5.0， 执 行 命令 : 


# 提交 Spark 任 务 的 入 口 

./bin/spark-submit \ 

# 主 程序 设置 本 地 ，1Local [*]， 其 中 * 是 指 设置 线程 数 

--master local[10] \ 

# 选 择 主 类 名 称 

--class org.apache.spark.examples.SparkPi \ 

fexamples Jar 包 
/home/hadoop/spark-1.5.0/1ib/spark-examples-1.5.0-hadoop2.3.0.jar 


执行 结果 如 下 : 


*** INFO spark.SparkContext: Starting job: reduce a 
*** INFO spark.SparkContext: Job finished: reduce a 
Pi is roughly 3.14826 # 计算 出 Pi 值 ， 表 明 运 行 成 功 。 


SparkPi.scala:35--- 
SparkPi.scala:35, took 0.751093979 s 


Ct ct 


2.3.2 Standalone 模 式 运 行 Spark 应 用 程序 
spark 独 立 模式 下 应 用 程序 的 运行 以 及 资源 调度 、 监 控 和 日 志 等 内 容 会 在 接 下 来 做 简单 的 介 


1.spark-shell 运 行 应 用 程序 
在 Spark 集 群 上 运行 应 用 程序 ， 需 要 将 Master 的 Spark: //IP: PORT 传递 给 SparkContext 构 造 函 数 。 


在 集群 上 运行 交互 式 的 Spark 命 令 spark-shell， 该 命令 将 会 用 spark-env.sh 中 的 SPARK_ MASTER IP 和 SPARK_ MASTER_PORT 自 动 设置 Master。 


./bin/spark-shell --master spark:// IP:PORT 


另外 ， 还 可 以 通过 传递 一 个 --cores<numCore> 来 控制 spark-shell 在 集群 上 使 用 的 核心 的 数目 。 


2.spark-submit 启 动 应 用 程序 
spark-submit 脚 本 提供 了 一 种 向 集群 提交 Spark 应 用 程序 的 最 直接 的 方法 ， 对 于 一 个 独立 部 署 模式 的 集群 ，Spark 目 前 支持 Client 部 署 模式 ， 即 在 提交 应 用 的 客户 端 进程 中 部 署 Driver。 
如 果 应 用 程序 通过 spark-submit 启 动 ， 那 么 应 用 程序 的 Jar 包 将 会 自动 地 分 配给 所 有 的 Worker 节 点 ; 对 于 任何 其 他 运行 应 用 程序 时 需要 依赖 的 Jar 包 ， 可 以 通过 -jar 声 明 ，Jar 包 名 之 间 用 逗号 隔 开 。 


以 SparkPi 为 例 ， 提 交 应 用 程序 命令 如 下 : 


./bin/spark-submit \ 
--class org.apache.spark.examples.SparkPi \ 
--master spark:// $YOUR MASTER IP:7077 \ 
--executor-memory 2G N 
--total-executor-cores 2 N 
SYOUR SPARK HOME/lib/spark-examples-1.5.0-hadoop2.3.0.jar 


其 中 ，spark-submit 为 提交 Spark 任 务 的 脚本 ，--class org.apache.spark.examples.SparkPi 为 Spark 项 目 包 中 指定 运行 的 类 的 全 路 径 。--master spark: //$YOUR MASTER IP: 7077 为 主 节点 的 路 
径 和 端口 号 。$YOUR SPARK HOME/lib/spark-examples-1.5.0-hadoop2.3.0.jar 是 Spark 项 目 程 序 包 的 路 径 。 


直接 运行 即 可 验证 Spark 在 standalone 模 式 下 的 计算 圆周 率 的 程序 。 如 果 启 动 上 述 应 用 程序 成 功 ， 则 执行 结果 如 下 : 


*** INFO client.AppClient$ClientActor: Connecting to master spark:// $YOUR MASTER IP:7077http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/ 
*** INFO spark.SparkContext: Starting job: reduce at SparkPi.scala:35--- 

*** INFO spark.SparkContext: Job finished: reduce at SparkPi.scala:35, took 15.530349566 s 

Pi is roughly 3.14058 


当 出 现 Pi is roughly 3.14058， 表 明 计 算 成 功 。 


3. 资 源 调 度 


独立 部 署 模 式 支 持 FIFO 作 业 调 度 策略 。 不 过 ， 为 了 允许 多 并 发 执行 ， 你 可 以 控制 每 一 个 应 用 可 获得 的 资源 最 大 值 。 默 认 情 况 下 ， 如 果 集 群 中 一 次 只 运行 一 个 应 用 程序 ， 它 就 会 获得 所 有 CPU 核 。 你 可 以 
在 SparkConf 中 设置 spark.cores.max 来 配置 获得 最 多 内 核 的 数量 ， 示 例如 下 所 示 : 


val conf = new SparkConf () 
.SetMaster (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...) 
.SetAppName (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...) 
.Set ("spark.cores.max", "10") B 

val sc = new SparkContext (conf) 


除 此 之 外 ， 还 可 以 通过 配置 集群 上 的 spark.deploy.defaultCores 来 改变 应 用 程序 使 用 的 默认 值 ， 而 不 必 设 置 spark.cores.max， 需 要 在 spark-env.sh 中 加 入 以 下 内 容 : 


export SPARK MASTER OPTS-"-Dspark.deploy.defaultCores-«value»" 
当 用 户 不 会 在 共享 集群 上 独立 配置 CPU 核 数 最 大 值 的 时 候 ， 这 显得 特别 重要 。 


4 监控 和 日 志 


Spark 独 立 部 署 模式 提供 了 一 个 基于 Web 的 用 户 接口 ， 监 控 集 群 运行 状况 。Master 和 每 一 个 Worker 都 会 有 一 个 WebUl 来 显示 集群 的 统计 信息 。 默 认 情 况 下 ， 可 以 通过 8080 端 口 访问 Master 的 


WebUl, 
另外 ， 每 个 Slave 节 点 上 作业 运行 的 日 志 也 会 详细 地 记录 到 默认 的 $SPARK_ HOME/work 目 录 下 每 个 作业 会 对 应 两 个 文件 : stdout 和 stderr， 包 含 了 控制 台 上 所 有 的 历史 输出 。 
如 图 2-2 所 示 ， 本 书 所 用 数据 平台 是 通过 $YOUR SPARK MASTER IP: 8080 访 问 集群 统计 信息 情况 。 


[D Spark Master at sparky x 


= | D 192.168.86.41:8080 


$Spofc Spark Master at spark://192.168.86.41:7077 


URL: spark://192.168.86.41:7077 
Workers: 13 

Cores: 312 Total, 0 Used 

Memory: 804 1 GB Total, 0 0 B Used 
Applications: O Running, 0 Completed 
Drivers: 0 Running, 0 Completed 
Status: ALIVE 


Workers 


Id te Cores Memory 
m 
IT 


worker-20141014153322-bd-009-43658 bd-009:43658 ALIVE 24 (0 Used) 61.8 GB (0.0 B Used) 
worker-20141014153322-bd-010-47413 bd-010:47/413 ALIVE 24 (0 Used) 61.8 GB (0.0 B Used) 


图 2-2 Spark RA AHE & 


23.3 ”YARN 模 式 运行 Spark 


Spark 0.6 版 本 以 后 ， 加 入 了 对 在 Hadoop YARN 上 运行 的 支持 ， 并 在 之 后 发 布 版 本 中 不 断 演进 ， 逐 渐 发 展 成 Spark 应 用 程序 运行 的 主要 模式 。 

Hadoop 与 Spark 部 署 完毕 后 ， 即 可 在 YARN 上 运行 Spark 程 序 。 其 任务 提交 的 方式 与 独立 模式 类 似 ， 只 是 工作 原理 有 一 些 不 同 。 

(1) 在 YARN 上 启动 Spark 应 用 

在 YARN 上 启动 Spark 应 用 有 两 种 模式 : yarn-cluster 模 式 和 yarn-client 模 式 。 

在 yarn-cluster 模 式 下 ， 框 架 会 在 集群 中 启动 的 Driver 程 序 ; 

在 yarn-client 模 式 中 ， 框 架 会 在 client 庙 启动 Driver 程 序 。 在 YARN 中 ，Resourcemanager 的 地 址 是 从 Hadoop 配 置 中 选取 的 。 因 此 ，master 人 参数 可 以 简单 配置 为 yarn-client 或 yarn-cluster。 


要 在 yarn-cluster 模 式 下 调用 Spark 应 用 ， 示 例如 下 : 


./bin/spark-submit \ 
--class path.to.your.Class \ 
--master yarn-cluster [options] «app jar» [app options] 


以 SparkPi 为 例 ， 提 交 应 用 程序 命令 如 下 : 


$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \ 
--master yarn-cluster 
--num-executors 3 \ 
--driver-memory 4g \ 
--executor-memory 2g \ 
--executor-cores 2 N 
SYOUR SPARK HOME/lib/spark-examples-1.5.0-hadoop2.3.0.jar ^ 
10 


首先 启动 一 个 Application Master 的 客户 程序 ， 之 后 SparkPi 将 作为 Application Master 的 一 个 子 进 程 运行 。 
Client 会 周期 性 地 检查 Application Master 以 获得 状态 更 新 ， 当 应 用 程序 运行 结束 时 ，Client 会 立刻 退出 。 
要 以 yarn-client 模 式 启 动 一 个 Spark 应 用 ， 操作 相同 ， 用 “yarn-client” 蔡 换 “yarn-cluster” 即 可 。 


在 YARN 模 式 下 ， 通 过 spark-submit 提 交 任务 应 用 程序 ， 示 例如 下 : 


./bin/spark-submit \ 
--class org.apache.spark.examples.SparkPi \ 
--master yarn-client \ 
--executor-memory 2G N 
--num-executors 3 \ 
SYOUR SPARK HOME/lib/spark-examples-1.5.0-hadoop2.3.0.jar 


直接 运行 上 述 程序 即 可 测试 Spark 在 YARN 模 式 下 计算 圆周 率 的 程序 。 
(2) 添加 其 他 的 Jar 包 


在 yarn-cluster 模 式 下 ，Driver 和 Client 运 行 于 不 同 的 机 器 ，SparkContext.addJar 不 会 作用 于 Client 本 地 文件 。 要 使 SparkContext.addJar 可 使 用 Client 的 本 地 文件 ， 在 启动 指令 中 的 --jars 选 项 中 加 入 
文件 。 


$ ./bin/spark-submit 

--class my.main.Class \ 

--master yarn-cluster \ 

--jars my-other-jar.jar,my-other-other-jar.jar 
my-main-jar.jar app argl app arg2 


(3) 监控 和 日 志 
程序 运行 完毕 后 ， 如 果 Hadoop 集 群 配置 完毕 ， 那 么 在 Hadoop 集 群 Cluster 页 面 上 ， 也 就 是 在 http://$YOUR_MASTER IP:8088/cluster/apps/FINISHED 路 径 下 可 以 看 到 执行 完成 的 Spark 程 序 及 其 输 
出 日 志 , 或 者 在 http://$YOUR MASTER 1P:8080/ 路 径 下 可 以 看 到 执行 的 Spark 任 务 。 


如 图 2-3 所 示 ， 本 书 所 用 数据 平台 是 通过 $YOUR_MASTER IP: 8088 访 问 集 群 统计 信息 情况 。 
2.3.4 ”应 用 程序 提交 和 参数 传递 
提交 任务 是 Spark 运 行 的 起 步 ， 理 解 任务 提交 时 不 同 参 数 的 含义 十 分 重要 。 
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图 2-3 Spark YARN 模 式 任务 统计 信息 


1. 应 用 程序 提交 过 程 


spark 应 用 程序 在 集群 上 以 独立 进程 集合 的 形式 运行 ， 接 受用 户 Driver 程 序 中 main 函 数 SparkContext 对 象 的 协调 。 
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确切 来 说 ， 当 任务 提交 到 集群 上 ，SparkContext 对 象 可 以 与 多 种 集群 管理 器 (Standalone 部 署 、Mesos、YARN 模 式 ) 连接 ， 这 些 集群 管理 器 负责 为 所 有 应 用 分 配 资源 。 


一 旦 连接 建立 ，Spark 可 以 在 集群 的 节点 上 获得 Executor， 这 些 Executor 进 程 负责 执行 计算 和 为 应 用 程序 存储 数据 。 
接 下 来 ，Spark 会 将 应 用 程序 代码 (传递 给 SparkContext 的 Jar 或 Python 文件 ) 发 送 给 Executor。 


Bx 


最 后 ，SparkContext 将 任务 发 送 至 Executor 执 行 ， 图 2-4 所 示 为 Spark 任 务 提交 流程 。 


Worker Node 


Fxecutor 


Driver Program 


Cluster Manager 


SparkContext 


Executor 


图 2-4 ”Spatk 任 务 提交 流程 图 


执行 过 程 中 ， 需 要 注意 以 下 情况 : 
1) 每 个 应 用 程序 都 会 获得 自己 拥有 的 Executor 进 程 ， 这 些 进程 的 生命 周期 持续 在 整个 应 用 运行 期 间 ， 并 以 多 线程 的 方式 执行 任务 。 无 论 是 在 Driver 驱 动 程序 ， 还 是 Executor 执 行进 程 ， 都 能 很 好 地 隔离 


应 用 程序 ， 如 果 没 有 将 数据 写 到 外 部 存储 ， 该 数据 就 不 能 被 其 他 Spark 应 用 共享 。 


2) Spark 对 集群 管理 器 是 不 可 知 的 ， 只 要 Spark 能 够 获取 Executor 进 程 ， 并 且 这 些 Executor 之 间 可 以 相互 通信 ，Spark 不 关注 集群 管理 器 是 否 支持 其 他 的 业务 ， 如 YARN 同 时 支持 MapReduce 程 序 的 运 


3) 因为 Driver 负 责 与 集群 上 的 任务 交互 ， 所 以 Driver 应 该 运行 于 距离 Worker 节 点 近 的 地 方 ， 最 好 在 同一 个 本 地 局 域 网 之 中 。 如 果 想 要 给 集群 发 送 远程 请 求 ， 那 么 请 为 Driver 安 装 RPC 协 议 并 从 附近 提 
交 ， 而 不 是 在 远离 Worker 节 点 的 地 方 运行 Driver。 


2. 配 置 参 数 传递 
在 SparkConf 中 显 式 配置 的 参数 具有 最 高 优先 级 ， 然 后 是 传递 给 spark-submit 的 标志 位 ， 最 后 是 默认 属性 配置 文件 中 的 值 。 
如 果 没 有 在 SparkConf 中 显示 配置 ， 又 不 想 在 spark-submit 中 提交 ， 可 以 通过 默认 属性 配置 文件 获取 值 。spark-submit 脚 本 可 以 从 属性 文件 中 加 载 Spark 配 置 值 ， 并 将 它们 传递 给 应 用 程序 。 
默认 情况 下 ，spark-submit 脚 本 将 会 从 Spark 目 录 下 的 conf/spark-defaults.conf 中 读 取 配置 选项 。 例 如 ， 如 果 Spark 的 Master 属 性 已 经 设置 ，spark-submit 提 交 时 可 以 省 略 --master 标 志 。 


如 果 应 用 程序 代码 依赖 于 其 他 的 项 目 ， 需 要 将 它们 与 应 用 程序 一 起 打包 ， 以 便 应 用 程序 的 代码 可 以 分 发 到 9park 集 群 之 上 。 为 此 ， 需 要 创建 一 个 包含 应 用 程序 代码 和 其 依赖 的 Jar 包 ( 当 创 建 Jar 包 时 ， 需 
要 将 Spark 和 Hadoop 作 为 提供 依赖 项 ;这 两 者 不 需要 被 打 入 包 中 ， 在 运行 时 由 集群 管理 器 提供 加 载 ) 。 


一 旦 拥有 Jar 包 ， 就 可 以 在 调用 bin/spark-submit 脚 本 时 传递 Jar 包 。 应 用 程序 的 Jar 包 和 所 有 在 --jars 选 项 中 的 Jar 包 都 会 被 自动 地 传递 到 集群 。Spark 使 用 下 面 的 URL 支 持 按 不 同 的 策略 散播 的 Jar 包 。 
: file: Drivet 的 HITP 文 件 服 务 器 提供 了 绝对 路 径 和 fle: //URI， 所 有 的 Executot 节 点 从 Driver 的 HTTP 服 务 器 处 获得 文件 。 

. hdfs: 从 HDFS 的 URI 获 取 文 件 和 Jar 包 。 

: local 以 每 个 Wotket 节 点 相同 的 local: /开头 的 URI 文 件 。 


Qua 在 Executot 节 点 上 的 每 个 SpatkContext 对 象 的 Jit 包 和 文件 会 被 复制 到 工作 目录 下 。 这 可 能 会 占用 大 量 的 空间 ， 并 且 需 要 被 及 时 清除 。 在 YARN 集 群 上 ， 清 除 是 自动 执行 的 。 在 Standalone 模 式 部 署 
集群 上 ， 自 动 清除 可 以 通过 spatk.wotket.cleamup.appDataTtl 属 性 配置 。 


当 在 yarn-cluster 模 式 下 对 本 地 文件 使 用 --jars 选 项 时 ， 该 选项 允许 你 使 用 SparkContext.addjJar 浮 数 。 若 对 于 HDFS、HTTP、HTTPS 或 FTP 文 件 ， 则 不 必 使 用 。 
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正 所谓 工 欲 善 其 事 必 先 利 其 器 ，spark 的 部 署 和 运行 并 不 复杂 ， 但 是 其 作用 范围 之 广 ， 兼 容 能 力 之 强 值得 我 们 深究 和 讨论 。 本 章 从 SBT 与 Maven 两 种 编译 Spark 的 方式 展开 ， 以 Local 模 式 、standalone 
模式 和 YARN 模 式 为 基础 ， 详 细 地 讲解 了 Spark 的 部 署 和 运行 ， 介 绍 了 Spark 在 各 个 模式 下 的 区 别 和 特点 ， 希 望 能 为 接 下 来 的 Spark 编 程 打下 良好 的 基础 。 


第 3 章 ”Spark 程 序 开发 


KEH, FHS. TUŽE, BARE. 
一 一 《道德 经 》 第 十 六 章 
这 世间 ， 一 切 原本 都 是 空虚 而 宁静 的 ， 万 物 也 因而 能 够 在 其 中 生长 。 因 此 ， 要 追寻 万 物 的 本 质 ， 必 须 恢 复 其 最 原始 的 虚 静 状态 ， 只 有 致 虚 和 守 静 做 到 极 等 的 境地 ， 万 物 才 能 莲 勃 生长 ， 往 复 循 环 。 


作为 程序 员 ， 人 怎么 提倡 超越 都 不 为 过 ， 但 落地 到 具体 问题 ， 我 们 需要 有 比较 实际 的 措施 。 从 简单 程序 开始 ， 以 致 虚 和 守 静 的 心态 ， 清 空 自己 在 大 数据 方向 不 劳 而 获 的 幻想 ， 逐 步 成 长 为 业内 有 影响 力 的 
角色 。 对 于 大 部 分 程序 员 而 言 ， 本 章 内 容 略 显 基 础 ， 首 先 通过 Spark 交 互 Shell 来 介绍 Spark API1， 编 写 简单 的 Spark 程 序 ， 然 后 展示 如 何 构建 Spark 开 发 环境 ， 以 及 编写 简单 的 Spark 案 例 程 序 ， 并 提交 应 用 程 
序 。 


3.1 ”使 用 Spark Shell 编 写 程序 


要 学 习 Spark 程 序 开 发 ， 建 议 首先 通过 spark-shell 交 互 式 学 习 ， 加 深 对 Spark 程 序 开 发 的 理解 。spark-shell 提 供 了 一 种 学 习 API 的 简单 方式 ， 以 及 一 个 能 够 交互 式 分 析 数 据 的 强大 工具 ， 在 Scala 语 言 环 
境 下 (Scala 运行 于 Java 虚 拟 机 ， 因 此 能 有 效 使 用 现 有 的 Java 库 ) 或 Python 语言 环境 下 均 可 使 用 。 


3.1.1 启动 Spark Shell 


在 spark-shell 中 ， 已 经 创建 了 一 个 名 为 sc 的 SparkContext 对 象 ， 如 在 4 个 CPU 核 上 运行 bjin/spark-shell， 命 令 如 下 : 


./bin/spark-shell --master local[4] 


如 果 指定 Jar 包 路 径 ， 命 令 如 下 : 


./bin/spark-shell --master local[4] --jars testcode.jar 


其 中 ，--master 用 来 设置 context 将 要 连接 并 使 用 的 资源 主 节点 ，master 的 值 是 Standalone 模 式 的 Spark 集 群 地 址 、Mesos 或 YARN 集 群 的 URL， 或 者 是 一 个 local 地 址 ; 使 用 --jars 可 以 添加 Jar 包 的 路 
径 ， 使 用 逗号 分 隔 可 以 添加 多 个 包 。 进 一 步 说 明 ，spark-shell 的 本 质 是 在 后 台 调 用 了 spark-submit 脚 本 来 启动 应 用 程序 。 


3.1.2 ”加 载 text 文 件 


Spark 创 建 sc 之 后 ， 可 以 加 载 本 地 文件 创建 RDD， 我 们 以 加 载 Spark 自 带 的 本 地 文件 README.md 文 件 进行 测试 ， 返 回 一 个 MapPartitionsRDD 文 件 。 


scala»val textFil sc.textFil 


("file:///S$SPARK HOME/README .md") 


textFile: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at textFile at «console»:21 


需要 说 明 的 是 ， 加 载 HDFS 文 件 和 本 地 文件 都 是 使 用 textFile， 区 别 是 添加 前 缀 (hdfs: /和 file: //) 进行 标识 ， 从 本 地 文件 读 取 文件 直接 返回 MapPartitionsRDD， 而 从 HDFS 读 取 的 文件 先 转 成 
HadoopRDD， 然 后 隐 式 转换 成 MapPartitionsRDD。 


上 面 所 说 的 MapPartitionsRDD 和 HadoopRDD 都 是 基于 Spark 的 弹性 分 布 式 数据 集 (RDD) 。 


3.1.3 简单 RDD 操 作 


对 于 RDD， 可 以 执行 Transformation 返 回 新 RDD， 也 可 以 执行 Action 得 到 返回 结果 。 下 面 从 first 和 count 命 令 开 始 Action 之 旅 ， 示 例 代 码 如 下 : 


textFile 的 第 一 项 


ile.first() 


resl: Long - 


= # Apache Spark 
textFile 所 有 项 的 计 


ile.count () 


98 


数 


接 下 来 通过 Transformation 操 作 ， 使 用 filter 命 令 返 


// 抽取 含有 "Spark" 的 子 集 


scala>valtext Filter textFil 
textPFilter: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] at filter at «console»:23 


回 一 个 新 的 RDD， 即 抽取 文件 全 部 条 目的 一 个 子 集 ， 返 回 一 个 新 的 FilteredRDD， 示 例 代码 如 下 : 


.filter (line >] 


ine.contains ("Spark")) 


我 们 可 以 链接 多 个 Transformation 和 Action 进 行 操作 。 示 例 代码 如 下 : 


scala»textFil 


res2: Long - 


3. 


-— 


通过 简单 RDD 操 作 进 
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4 简单 RDD 操 作 应 用 


1. 找 出 文本 中 每 行 最 多 单词 数 


， 来 实现 找 出 文本 中 每 


.filter (line -»1line.contains ("Spark")).count () 


最 多 多 单词 数 ， 词 频 统计 等 。 


基于 RDD 的 Transformation 和 Action 可 以 用 作 更 复杂 的 计算 ， 假 设想 要 找到 文本 中 每 行 最 多 单词 数 ， 可 以 参考 如 下 代码 : 


scala»textFil 
14 


res3: Int - 


e.map (line -»line. 


split (" ").size).reduce((a, b) => if (a > b) a else b) 


在 上 面 这 段 代 码 中 ， 首 先 将 textFile 每 一 行文 本 中 的 句子 使 用 split ("") 进行 分 词 ， 并 统计 分 词 后 的 单词 数 。 创 建 一 个 基于 单词 数 的 新 RDD， 然 后 针对 该 RDD 执 行 Reduce 操 作 使 用 
(a, b) =>if (a»b) a else b 国 数 进 


2. 词 频 统计 


行 比 较 ， 返 回 最 大 值 。 


从 MapReduce 开 始 ， 词 频 统 计 已 经 成 为 大 数据 处 理 最 流行 的 入 门 程序 ， 类 似 MapReduce，Spark 也 能 很 容易 地 实现 MapReduce， 示 例 程序 如 下 : 


// 结合 flatMap、map 和 reduce 


reduceByKey ( (a, 


at <console>: 


scala»wordCount.collect () 


ByKey 来 计算 文件 中 每 个 单词 的 词 频 
scala>val wordCount= textFile.flatMap(line -»line.split(" ")).map(word => (word,1)). 
wordCount: e d aS Int)] = ShuffledRDD[7] at reduceByKey 
// 使 用 Collect 4-48 计数 结果 
String, Int)] = Array((package,1), (this,1) ,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 


res4: Array[( 


这 里 ， 结 合 flatMap、Map 和 reduceByKey 来 计算 文件 中 每 个 单词 的 词 频 ， 并 返回 (string. int) 类 型 的 键 值 对 ShuffledRDD (由 于 reduceByKey 执 行 时 需要 进行 Shuffle 操 作 ， 返 回 的 是 一 个 Shuffle 


形式 的 RDD，ShuffledRDD) ， 最 后 使 用 Collect 聚 


如 果 想 让 scala 的 团 | 数 文本 更 简洁 ， 可 以 使 用 占 位 符 


当 每 个 参数 在 函数 文本 中 最 多 出 现 一 


表 第 二 个 参数 ， 依 此 类 推 。 


通过 占 位 符 对 词 频 统 计 进 


scala»val wordCount-textFile. 


行 优化 。 


. reduceByKey ( 4 


F: 


2) 


scala»val wordCount= inFile.fl 


map (x-»(x. 2, 


x. 1)).sortByKey (f 


Spark 默 认 是 不 进行 排序 的 ， 如 果 以 排序 的 方法 进行 


atMap( .split(" 


上 面 的 代码 通 


合 单词 计数 结果 


"|" ， 占 位 符 可 以 看 作 表 达 式 里 需要 被 “ 填 入 ”的 “空白 ”， 这 个 “空白 ”在 每 次 函数 被 调用 时 ， 由 函数 的 参数 填 入 。 


次 的 情况 下 ， 可 以 使 用 _+ 扩展 成 带 两 个 参数 的 函数 文本 ; 多 个 下 划 线 指 代 多 个 参数 ， 而 不 是 单个 参数 的 重复 使 用 。 第 一 个 下 划 线 代表 第 一 个 参数 ， 第 二 个 下 划 线 代 


flatMap( .split(" ")).map( ,1) 


输出 ， 需 要 进行 key 和 value 互 换 ， 然 后 采取 sortByKey 的 方式 ， 可 以 指定 降序 (false) 和 升序 (true) 。 这 样 就 完成 了 数据 统计 和 排序 ， 具 体 代 码 如 


")).map( ，1) .redquceByKey( + ) . 


alse).map(x-»(x. 2,x. 1)) 


过 第 一 个 x= > (2, x. 1) 实现 Key 和 value 互 换 ， 然 后 通过 sortByKey (false) 实现 降序 排列 ， 通 过 第 二 个 x= > (x.2, x. 1) 再 次 实现 key 和 value 互 换 ， 最 终 实现 排序 功能 。 


3.1.5 RDDZEÍZ 


Spark 也 支持 将 数据 集 存 进 一 个 集群 的 内 存 缓存 中 ， 


textFilter ( 即 包含 字符 串 “Spark” 的 数据 集 ) 


当 数 据 被 反复 访问 时 ， 如 在 查询 一 个 小 而 “ 热 ” 数 据 集 ， 或 运行 像 PageRank 的 迭代 算法 时 ， 是 非常 有 用 的 。 举 一 个 简单 的 例子 ， 缓 存 变量 


， 并 针对 缓存 计算 。 


scala»textFilter.cache() 

resb5b: textFilter.type = MapPartitionsRDD[2] at filter at «console»:23 
scala»textFilter.count () 

res6: Long - 18 


N 


通过 cache 缓 存 数 据 可 以 用 于 非常 大 的 数据 集 ， 支 持 跨越 几 十 或 几 百 个 节点 。 


3.2 ”构建 Spark 的 开发 环境 


无 论 Windows 或 Linux 操 作 系 统 ， 构 建 Spark 开 发 环境 的 思路 一 致 ， 基 于 Eclipse 或 1dea， 通 过 Java、Scala 或 Python 语言 进行 开发 。 安 装 之 前 需要 提前 准备 好 JDK、Scala 或 Python 环境 ， 然 后 在 Eclipse 
中 下 载 安装 Scala 或 Python 插件 。 


3.2.1 ”准备 环境 
准备 环境 包括 JDK、Scala 和 Python 的 安装 。 
1. 安 装 JDK 
(1) 下 载 JDK (1.7 以 上 版 本 ) 
下 载 地 址 : http;//www.oracle.com/technetwork/java/javase/downloads/index.html, 
(2) 配置 环境 变量 (以 Windows 为 例 ) 
新 增 JAVA_HOME 变 量 ， 值 : C: \Program FilesJavaVdk1.7.0 71, 
新 增 CLASSPATH 变 量 ， 值 : .; %JAVA HOME%\lib, 
增加 PATH 变量 ， 补 充 ; %JAVA HOME?6Nbin, 
进入 cmd 界 面 测试 JDK 是 否 安装 成 功 。 


C:NUsersNadmin»java -version 
java version "l.7,0 7I" 
Java(TM) SE Runtime Environment (build 1.7.0 71-b14) 


2. 安 装 Scala 
下 载 Scala (2.10 以 上 版 本 ) ， 下 载 地 址 : http://www.scala-lang.org/download/。 
安装 完毕 配置 环境 变量 ， 增 加 PATH 变量 ， 补 充 C: \Program Files (x86) \scala\bin; 。 


进入 cmd 界 面 测 试 Scala 是 否 安装 成 功 。 


C:\Users\admin>scala 
Welcome to Scala version 2.10.5 (Java HotSpot (TM) 64-Bit Server VM, Java 1.7.0 7 
Type :help for more information. 


3.22 Python 
下 载 Python， 下 载 地 址 : https://www.python.org/downloads/。 
安装 完毕 配置 环境 变量 ， 增 加 PATH 变量 ， 补 充 C: \Python33; 。 
进入 cmd 界 面 测试 Python 是 否 安装 成 功 。 


C: NUsersNadmin»python 
Python 3.3.5 (v3.3.5:62cf4e77f785, Mar 9 2014, 10:37:12) [MSC v.1600 32 bit (Intel)] on win32 


Type "help", "copyright", "credits" or "license" for more information. 


3.22.2 ”构建 Spark 的 Eclipse 开发 环境 


使 用 Eclipse 进行 Spark 开 发 ， 需 要 安装 Scala 和 Python 插件 ， 安 装 步骤 如 下 : 
1) 安装 Eclipse， 在 官网 下 载 Eclipse， 解 压缩 到 本 地 后 直接 使 用 即 可 。 


2) 安装 Scala 插 件 ， 打 开 Eclipse， 依 次 选择 “Help” 一 “Install New Software.…”， 在 选项 里 填 入 http://download.scala-ide.org/sdk/e38/scala210/stable/site/， 并 按 回 车 键 ， 如 图 3-1 所 示 ， 选 
择 Scala IDE for Eclipse 和 Scala IDE for Eclipse development support， 完 成 Scala 插 件 在 Eclipse 上 的 安装 。 


3) 安装 Python 插 件 ， 与 安装 Scala 插 件 一 样 ， 打 开 Eclipse， 利 用 Eclipse Update Manager 安 装 PyDev。 在 Eclipse 菜单 栏 中 找到 Help 栏 ， 选 择 “Help” 一 “lnstall New Software” 命 令 ， 在 弹出 的 
Install 界 面 中 点 击 “Add” 按钮 ， 会 弹出 “Add Repository” 界 面 ， 在 名 称 项 输入 PyDev; 在 链接 里 输入 地 址 ， 如 https://dl.bintray.com/fabioz/pydev/all/， 然 后 点 击 “OK” 按 钮 。 接 下 来 ，Eclipse 的 
Update Manager 将 会 在 刚才 输入 的 站 点 中 搜索 安装 包 ， 选 中 搜索 出 的 结果 PyDev， 并 点 击 “Next” 按 钮 ， 等 待 一 段 时 间 ，PyDev 会 安装 成 功 。 


Available Software 
Check the items that you wish to install. 


Work with: — http;//download.scala-1ide.org/sdk/e38/scala210/stable/site/ 


Find more software by working with the "Available Software Sites" preferences. 


type filter text 


Name 
D00 Scala IDE for Eclipse 
Iv] 00 Scala IDE for Eclipse development support 
000 Scala IDE for Eclipse Source Feature 
M0 Scala IDE plugins (incubation) 
WD Sources 


aa Eee 


Details 


Show only the latest versions of available software [V] Hide items that are already installed 
Group items by category What is already installed? 

Show only software applicable to target environment 

Contact all update sites during install to find required software 


图 3-1 Eclipse Scaladé& ff 
安装 完毕 PyDev 之 后 ， 配 置 Python/Jython 解 释 器 ， 在 Eclipse 菜单 栏 中 ， 选 择 “Window” 一 “Preferences” 一 “Pydev” — "Interpreter- (Python/Jython) ”命令 。 


重启 Eclipse 使 安装 生效 。 
3.2.3 ”构建 Spark 的 IntellJ IDEA 开 发 环境 


除了 使 用 Eclipse 进行 Spark 程 序 开 发 之 外 ，Spark 支 持 的 另外 一 种 开发 工具 是 Intellj IDEA; 下 载 地址 : http://www.jetbrains.com/idea/, 
官方 提供 了 Ultimate 版 和 Community 版 可 供 选择 ， 主 要 区 别 如 下 : 

1) Ultimate 版 功能 齐全 的 IDE， 支 持 Web 和 Enterprise， 免 费 试用 30 天 ， 由 官方 提供 一 个 专 有 的 开发 工具 集 和 架构 支持 。 

2) Community 版 支持 Java、Groovy、Scala、Android 的 开发 ， 免 费 并 且 开 源 ， 由 社区 进行 支持 。 

作者 使 用 的 版 本 是 idealC-14.1.4， 请 选择 适合 的 操作 系统 进行 安装 。 

Qi 如 何 安装 IntelliJ IDEA? 

: Windows: 直接 运行 .exe 文 件 ， 按 照 向 导 步 又 操作 即 可 。 

- Mac OS X: 打开 .dmg 包 ， 并 复制 Intellij IDEA 到 应 用 文件 夹 。 

: Linux: 解压 .tat.gz 压 缩 包 ， 并 运行 bin/idea.sh (需要 在 环境 变量 PATH 中 加 入 IDEA 目 录 ， 并 执行 soutce 命 令 使 配置 文件 生效 ) 。 


根据 实际 需求 ， 我 们 选择 Windows 系 统 的 Community 版 本 进行 Scala 程 序 的 开发 。 步 又 包括 : 安装 Scala 插 件 和 创建 项 目 并 在 IDEA 中 编写 Scala 代 码 。 
1. 安 装 Scala 插 件 


@ 运 行 IDEA 并 安装 和 配置 IDEA 的 Scala 开 发 插件 ， 启 动 程序 界面 如 图 3-2 所 示 ， 此 时 需要 选择 “Configure” ， 然 后 进入 IDEA 的 配置 页 面 。 


IntelliJ IDEA 


Version 14 1.1 


Y% Create New Project 
t€ Import Project 
[3 Open 


$ Check out from Version Control + 


Get Help = 


图 3-2 44 "Configure" 


@ 在 IDEA 的 配置 页 面 选 择 “Plugins” ( 见 图 3-3) ， 进 入 插件 安装 界面 。 


Plu = In: 


ing 5 
rt Settings 


k for Uu 
Project Defaults » 


Ex J0 


ate 


图 3-3 选择 “Plugins” 


@ 点 击 安装 界面 左下 角 的 “Install JetBrains plugin” 选 项 ， 进 入 JetBrains 插 件 选择 页 面 ， 如 图 3-4 所 示 。 


Android Support 
Ancr Ta a pogr 
Android Support Version: 10.110 


Ant Support Supports the development of Open Handset Aliance Android 


Bytecode Viewer applications with IntelliJ IDEA 


Copyright 
Coverage 


CVS Integration 


Eclipse Integration 
EditorConfig 


Git Integration 
GitHub 
Gradle 


én for Java 
IntelliLang 
Java Bytecode Decompiler 


gBgmsmmmcmmmpmnmmumnmuemsczmGrt 


JavaF X 


图 3-4 JetBrains 插件 选择 页 面 
(如 果 网 络 不 稳定 ， 可 以 提前 下 载 ， 然 后 选择 “Install plugin from disk” 本 地 加 载 揪 件 ， 下 载 地 址 : http;//www.jetbrains.net/confluence/display/SCA/Scala * Plugin--for-Intelli)--IDEA, ) 


@ 在 左上 方 的 输入 框 中 输入 “Scala” 来 查找 Scala 插 件 ， 此 时 点 击 右 侧 的 “Install plugin” 按 钮 ， 如 图 3-5 所 示 。 


à! : | - ; | Sort by: name "|| CUSTOM LANGUAGES 
jk Extra features for Eclipse plugins dew $273 ikk coala 
MISC one month aro 
s Haxe Support 15,187 Ai [$] Install plugin 
J 


CUSTOM LANGUAGES à months ago 


kė 2268393 downloadz 


- Aur Editie 33, 168 | ! - 
gk Python Community Edition sririnint Updated 2014/8/29 ver 0.41.2 


CUSTOM LANGUAGES Jj senthe age 
Z, 268, 337 Scala SBT, SSP, HOCOM and Play 2 support. 


一 一 -一 Change Notes 
Fi IYPO3 TypoScript Support > - 
CUSTOM LANGUAGES Critical fixes update. 


Vendor 


JetBrains Inc. 
http./^www jetbrains.com 


图 3-5 d Scala Plugin 


插件 安装 完毕 ， 重 启 IDEA。 


2. 创 建 项 目 并 在 IDEA 中 编写 Scala 代 码 


Q@ 进 入 首页 ( 见 图 3-2) ， 选 择 “Create New Project” 命 令 ， 此 时 选择 左 侧 列表 中 的 “scala” 选 项 ， 为 了 方便 以 后 的 开发 工作 ， 选 择 右 侧 的 “SBT” 选 项， 如 图 3-6 所 示 。 


Cj Java 

ig! Android 

Da Java FX 

Sf Intelli) Platform Plugin 
m Maven 

(è Gradle 

G Groovy 

e Griffon 


El Empty Project 


SBT-based Scala project 


图 3-6 ”建立 Scala 的 SBT 项 目 


@ 点 击 “Next” 按 钮 进入 下 一 步 ， 设 置 Scala 工 程 名 称 和 本 地 目录 ( 见 图 3-7) ,选择 SDK、SBT、Scala 版 本 ,点击 “Finish” 按 钮 完成 工程 的 创建 。 


SBT version: 0.13.8 d 
Scala verson: i 
[ | Use auto-import 


Create directories for empty content roots automatically 


Download sources and docs 


Download SBT sources and docs 


图 3-7 设置 工程 名 称 和 本 地 目录 
@ 由 于 在 前 面 选择 了 “SBT” 选 项 ， 所 以 此 时 IDEA 智 能 地 构建 $BT 工 具 : 点 击 工程 名 称 “HelloSpark”， 可 以 看 到 SBT 自 动 创建 的 一 些 目录 ， 如 图 3-8 所 示 。 


@ 此 时 右 击 src 目 录 下 main 中 的 scala， 在 弹出 的 “New” 菜 单 下 选择 “Scala Class" ， 在 弹出 的 “Create New Scala Class” 对 话 框 中 输入 文件 名 “HelloSpark”， 把 Kind 选 择 为 “Object”， 点 
击 “OK” 按 钮 完成 ， 如 图 3-9 所 示 。 


a HelloSpar! | iL:yws-idea-sbtyHellosSpart 


[3 idea 


project [hellospark-build] (sources root) 


resources 
[3 scala 
[3 scala-2.10 
» O test 
[ target 
[X build.sbt 


External Libraries 


图 3-8 SBT 自动 创建 的 一 些 目录 


[Ca ldeaProject [ideaproject] (D:\IdeaProject) 
b Öl idea 
P Š project [ideaproject-build] (sources root) 
v» Osr 
v È main 
[3 java 


L3 resources 


v Dtest 


[3 java | ———— 
Ba resources $| Name: 
[1 scala | ee 
[3 target | 一 - 

[3 build.sbt 
b BhExternal Libraries 


图 3-9 kd "OK" dA 58; 9| X£ Object 


GE "Hellospark" RRI, AER, HM PARAME, A "Run 'Hello-Spark' ”运行 程序 ， 如 图 3-10 所 示 。 


= Edit View Navigate Code Analyze Refactor Build Run Tools VCS Window Help 
i he ERE T. 


EE LE @ HelloSpark.scala x [| ë Copy Reference Ctrl - Alt-- Shift--C 


| Paste Ctrl - V 
iia Aa lideaproject r | /ss... i Paste from History. uu. 
» O idea | Bobject HelleSpark | | ne 2 a 


be Z project [ideaproject-build] 5 def main (args: Array[String]) { à uns rmi isti | 
: — y | Column Selection Mode Alt--Shift--Insert 
7 "rs : print("Helle Spark! ^") | UE | an 


Y DD main à Find Usages Alt-F7 
Ê} Analyze 
| Refactor 
Folding 
Go To 
| Generate... Alt--Insert 
d Add to Watches 
Compile 'HelloSpark.scala' Ctrl - Shift-- F9 
fe^ Create 'HelloSpark'... 
F Run Hellespark 
* Debug 'HelloSpark' 


(ALLE EIR b 


[3 build.sbt 
P BhExternal Libraries 


图 3-10 ”选择 运行 程序 的 命令 


3. 加 入 Spark 开 发 包 


使 用 IDEA 导 入 外 部 Jar 包 ， 上 有 具体 步 又 : "File" > "Project Structure" > "Modules" 一 “Dependencies” 一 +http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...— “Libraryhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...” 一 “Library Type (Java) " — "Select Library Files" 一 “Configure Library”， 以 添加 spark-assembly-1.5.0- 
hadoop2.3.0.jar 为 例 ， 添 加 步骤 如 下 : 


QAE "File" ， 选 择 “pProject Structure”， 如 图 3-11 所 示 。 


Eg] Edt Vew Navigate Code Analyze 


New Module... 

Import Project... 

Import Module... 

New... Alt Insert 


sopen Project 4 
Close Project 


F Settings... 


Ctrl- Alt-- S 
gH Project Structure... 


图 3-11 选择 Project Structute 菜 单 


@ 点 击 “Modules”， 选 择 “Dependencies”， 增加 “Library”， 如 图 3-12 所 示 。 


e» 


Project cetei —— 


Project 


Modules » 
— 


Export | 
L2 L7 (java version "1.7.0 55") 
的 «Module sources 
(v! llli SBT: org.scala-lang:scala-library:2.10.4 


Artifacts 
Platform Settin 
SDKs 

Global Libraries 


Ca 3 Module Dependency... 


ER a Bun 


图 3-12 ”选择 添加 依赖 库 


@ 选 择 依赖 库 类 型 “Java” ， 如 图 3-13 所 示 。 


1 JARs or directories... 
Library... 


Module Dependency... 


图 3-13 ”选择 依赖 库 类 型 (Java) 
Gi "Select Library Files”， 选 择 “spark-assembly-*-*jar”， 如 图 3-14 所 示 。 
选择 完毕 进行 Spark 开 发 包 加 载 。 
4.JDK 路 径 错 误 处 理 
如 果 SBT 出 现 如 图 3-15 提 示 ， 这 是 由 于 没有 设置 Java 的 JDK 路 径 。 
请 点 击 最 右 侧 的 “Project Structure" ， 如 图 3-16 所 示 ， 进 入 视图 ， 并 配置 项 目 JDK。 


选择 最 左 侧 的 “Project” 选项， 并 选择 “No SDK" 的 “New” 如 图 3-17 所 示 ， 选 择 项 目 JDK 为 1.7。 


m From Maven... 
La Scala SDK 


— 


Select files or directories in which library classes, sources, documentation or native libraries are located 


&mmnmuxo 


[3 ec2 
L3 examples 
3 lib 
— li] datanucleus-api-jdo-3.2.6jar 
lil datanucleus-core-3.2.10;jar 
lil datanucleus-rdbms-3.2.9 jar 
lil spark-1.5.0-yarn-shuffle jar 
spark-assembly-1.5.0-hadoop2.3.0 Jar 
li] spark-examples-1.5.0-hadoop2.3.0jar 
b B python 
> OR 
H B sbin 
» i spark-examples-1.5.0-hadoop2.3.0.jar 
* O PpP 
e O 我 的 学 习 
Jm: RF. 


Drag and drop a file into the space above to quickly locate it in the tree. 


EN- 0 


图 3-14 选择 spark-assembly-1.5.0-hadoop2.3.0.jar 


图 3-15 “出现 JDK 路 径 错误 


Projed 


图 3-16 Be € Project Structure 


Froject Settings 


Modules 
Librsries 
Facets 
Artifacts 
Platform Settings 
SDÉs 
Global Libraries 


重启 IDEA， 问 题解 决 。 


5.SBT 下 载 不 完整 问题 处 理 


Preject SDE: 
This SDE is default for all project modules. 
À module specific SDÉ can be configured for each of the modules as required 


Project language lewel: 

Ihis language lewel is default for all 

À module specific language level can b Tj IntelliJ Platform Plugin SDK |. as required 
Wi Android SDE 


JDE 


Froject compiler output: 

This path is used to store all project compilation results. 

À directory corresponding to each module is created under this path. 

This directory contains two subdirectories: Production and Test for production code and test sources, respectively. 
À module specific compiler output path can be configured for each of the modules as required 


D: XIdesProjectiout l] 


图 3-17 ”选择 JDK 


如 果 不 能 出 现 完 整 的 SBT 目 录 ， 选 择 "View" 目录 的 下 拉 菜 单 “Tool Windows" 目录 ， 选 择 "SBT" ， 如 图 3-18 所 示 。 


F4 


然后 刷新 SBT tasks， 如 图 3-19 所 示 。 


Ctrl +E 
Ctrl - Shift-- E 
Alt Shift--C 


Ctrl «8l 


Bi Application Servers 
BÍ Designer 

8) Event Log 

Enter Full Screen m Maven Projects 

ad Palette 

zi Palette 


EB] Terminal Alt-F12 
G Version Control 


图 3-18 选择 SBT 目 录 


> [a 


如 果 完 整 目录 还 是 不 可 见 ， 可 以 查看 具体 日 志 ， 然 后 将 需要 下 载 的 sbt 包 下 载 下 来 ， 放 到 相应 的 目录 ， 一 般 是 当前 用 户 的 .ivy2 目 录 ， 然 后 删除 Hellospark 项 目 ， 重 新 建 项 目 。 


图 3-19 ”点 击 刷新 按钮 


最 终 可 以 见 到 完整 的 SBT 路 径 。 
6.IDEA 生 成 Jar 包 
使 用 IDEA 编 译 class 文 件 ， 同 时 可 以 将 class 打 包 成 jar 文件， 方法 如 下 : 
DAKA "File" > “Project Structure”， 弹 出 “Project Structure” 的 设置 对 话 框 ; 
@ 选 择 左边 的 “Artifacts”， 点 击 上 方 的 “+” 按 钮 ; 
@@ 在 弹出 的 对 话 框 中 选择 "Jar" 一 “from moduls with dependencies" 


图 选择 要 启动 的 类 ， 然 后 确定 ; 
@ 应 用 之 后 选择 菜单 “Build” 一 “Build Artifacts”， 选 择 “Build” 或 者 “Rebuild” 后 即 可 生成 ， 生 成 的 Jar 文 件 位 于 工程 项 目 目 录 的 out/artifacts 下 。 


3.3. ”独立 应 用 程序 编程 
不 同 于 使 用 Spark Shell 自 动 初始 化 SparkContext 的 例子 ， 独 立 应 用 程序 需要 初始 化 一 个 SparkContext 作 为 程序 的 一 部 分 ， 然 后 将 一 个 包含 应 用 程序 信息 的 SparkConf 对 象 传递 给 SparkContext 构 造 函 


接 下 来 编写 简单 应 用 程序 SimpleApp， 并 描述 一 些 简单 的 编码 流程 。 


3.3.1 创建 SparkContext 对 象 


编写 一 个 Spark 程 序 ， 首 先 创建 SparkConf 对 象 ， 该 对 象 包含 应 用 的 信息 。SparkConf 对 象 构建 完毕 ， 需 要 创建 SparkContext 对 象 ， 该 对 象 可 以 访问 Spark 集 群 。 


// 创建 SparkConf 对 象 

val conf = new SparkConf(). 
// 创建 SparkContext 对 象 

val sc = new SparkContext (conf) 


tAppName ("Simple Application") 


[0] 
[0] 


3.3.2 ”编写 简单 应 用 程序 


一 个 常见 的 Hadoop 数 据 流 模式 是 MapReduce，Spark 可 以 轻易 地 实现 MapReduce 数 据 流 ， 我 们 通 


import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext. 
import org.apache.spark.SparkConf 
object SimpleApp { 

def main (args: Array[String]) ( 

val logFile = "$YOUR SPARK HOME/README. 


md" // 测试 文件 


val conf = new SparkConf ().setAppName ("Simple Application") 

val sc = new SparkContext (conf) 

val logData Sc.textFile (logFile, 2) .cache () 

val numAs = logData.filter(line -»line.contains ("a")).count() 

val numBs = logData.filter(line -»line.contains ("b")).count () 
println("Lines with a: $s, Lines with b: $s".format(numAs, numBs)) 


} 
} 


这 个 程序 统计 了 Spark 的 README.md 中 含有 “a” 的 行 数 和 含有 “b” 的 行 数 。 实 际 需要 用 Spark 的 安装 路 径 蔡 换 YOUR_ SPARK HOME, 


3.3.3 ”编译 并 提交 应 用 程序 


可 以 采用 IDEA 生 成 Jar 包 的 方式 ， 也 可 以 采取 sbt 或 者 mvn 的 方式 打 成 Jar 包 。 以 sbt package 为 例 ， 创 建 一 个 包含 应 用 程序 代码 的 Jar 包 。 


过 Spark API 创 建 一 个 简单 的 Spark 应 用 程序 SimpleApp.scala。 


一 旦 用 户 的 应 用 程序 被 打包 ， 就 可 以 使 用 $SPARK Ce spark-submit 脚 本 负责 建立 Spark 的 类 路 径 和 相关 依赖 ， 并 文 持 不 同 的 集群 管理 (Local, 


Standalone, YARN) 和 部 署 模 式 (Client, Cluster) ， 通 过 提交 参数 进行 区 别 。 


1. 使 用 sbt 打 成 Jar 包 


使 用 sbt 打 成 Jar 包 过 程 如 下 : 


sbt package 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/.. 
[info] Packaging {http://www.hzcourse.com/resource/readBook?path=/openresources/teach : ebook/uncompressed/15534/OEBPS/Text/ . 


2. 应 用 程序 提交 模板 
应 用 程序 提交 模板 如 下 : 


./bin/spark-submit \ 

--class <main-class>\ 

--master <master-url>\ 

--deploy-mode <deploy-mode>\ 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
<application-jar>\ 
[application-arguments] 


# other options 


选项 解释 说 明 : 


应 用 程序 入 口 位 置 ， 如 org.apache.spatk.examples.SpatkPi。 


: --class: 


: -master: 集群 的 master 的 URL， 如 spatk: //xxx.xxx.xxx.xxx: 7077; 或 使 用 local 在 本 地 单线 程 地 运行 ， 或 使 用 local[IN] 在 本 地 以 N 个 线程 运行 


: -deploy-mode: 集群 部 署 模式 ，Clustet 模 式 和 Client 模 式 (默认 模式 ) o 


- application-jar: 包含 应 用 程序 和 所 有 依赖 的 Jar 包 的 路 径 。 该 URL 必 须 是 在 集群 中 全 局 可 见 的 ， 如 一 个 hdfs: 


application-areuments: 传递 给 主 类 的 main 蓄 数 的 参数 。 


// 路 径 或 者 一 个 在 所 有 Wotket 节 点 都 出 现 的 名 e: 


对 于 Python 应 用 ， 在 <application-jar> 的 位 置 传 入 一 个 


Os 常见 的 部 署 策略 是 从 同一 物理 位 置 ， 
序 的 输入 和 输出 连接 到 控制 台 (console) 。 因 此 ， 


另外 ， 如 果 你 的 应 用 程序 是 从 远离 Wotket 机 器 


模式 和 Python 编写 的 应 用 不 支持 Clustef 模 式 。) 


.py 文件 代替 一 个 Jar 包 ， 并 且 以 -py-files 的 方式 在 搜索 路 径 下 加 入 Python.zip、.egg 或 .py 文件 。 


即 同一 个 网 关 的 服务 器 上 提 3 


这 个 模式 对 于 涉及 REPL (Read-Eval-Print Loop，“ 读 取 - 求 值 -输出 ”循环 ) 的 应 用 程序 尤其 合适 。 


的 某 台 机 器 上 提交 的 (如 你 的 笔记 本 电脑 上 ) ， 一般 要 用 Cluster 模 式 ， 使 Drivers 和 Executors 之 间 的 网 络 延 迟 最 小 化 。 


传递 给 Spark 的 Master URL 可 以 是 如 表 3-1 所 示 的 某 个 格式 。 


Master URL 
local 
local[K | 
locall*| 


spark://HOST:PORT 


yarn-client 


yarn-cluster 


表 3-1 Spark 47 Master URL 格 式 及 说 明 


说 BR 
以 单线 程 在 本 地 运行 Spark (完全 无 并 和 


在 本 地 以 个 Worker 线程 运行 Spark( 7T 文 个 数字 设 为 你 机 需 CPU FRA 


-SARELA EKRE H A H +R EE Worker oe 运行 Spark 


-个 给 定 的 Spark 独立 模式 集群 上 的 Master, 15m E1420 7 


以 Client 模式 连接 到 一 个 YARN 集群 。 该 集群 的 位 置 可 以 在 
量 中 找到 
- Cluster 模式 连接 到 一 个 YARN 集群 。 该 集群 的 位 置 可 以 在 百 


灾 量 中 找到 
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.]/ (http://www .hzcourse.com/resource/readBook?path-/c 


。 通 常 应 该 由 运行 local 进 行 测试 开始 。 


// 路 径 。 


交 应 用 程序 。 在 这 种 设置 中 ， 采 用 Client 模 式 比较 合适 。 在 Client 模 式 中 ，Drivet 直 接 在 用 户 的 spark-submit 进 程 中 启动 ， 应 用 程 


(目前 Standalone 部 署 模式 、Mesos 集 群 


ZEE EEEE ) 


是 配置 好 、 可 供 使 用 


HADOOP CONF DIR 


3. 以 Local 模 式 提交 应 用 程序 


以 Local 模 式 在 4 个 CPU 核 上 运行 应 用 程序 ， 命 令 如 下 : 


Ur 


YOUR SPARK HOME/bin/spark-submit \ 
--class "SimpleApp" \ 
--master local[4] \ 
target/scala-2.10/simple-project 2.10-1.0.jar 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 


4. 以 Standalone 模 式 提交 应 用 程序 
以 Standalone 模 式 运 行 应 用 程序 ， 命 令 如 下 : 


./bin/spark-submit \ 
--class "SimpleApp" \ 
--master spark:// *.*.*.*:7077 N 
--executor-memory 2G N 
--total-executor-cores 10 \ 
target/scala-2.10/simple-project 2.10-1.0.jar 


5. 以 YARN 模 式 提交 应 用 程序 


以 YARN 模 式 运 行 应 用 程序 ， 命 令 如 下 : 


./bin/spark-submit \ 
--class "SimpleApp" \ 
--master yarn-cluster \ 4 也 可 以 是 'yarn-client' 模式 
--executor-memory 2G N 
--num-executors 10 \ 
target/scala-2.10/simple-project 2.10-1.0.jar 


34 本章 小 结 


本 章 主 要 帮助 大 家 熟悉 如 何 使 用 Scala 和 Python 编写 Spark 交 互 程序 ， 讲 解 如 何 构建 不 同 的 编码 环境 ， 以 及 针对 不 同 环境 进行 Spark 程 序 开发 。 


在 运用 不 同 编程 语言 编写 Spark 程 序 时 ， 虽 然 语 法 格式 不 同 ， 但 究 其 根本 原理 和 整体 架构 以 及 运行 方式 都 是 相 类 似 的 。 对 编程 模型 和 工作 流程 的 学 习 ， 可 以 加 深 对 Spark 基 本 内 容 的 理解 ， 这 将 在 接 下 来 
的 篇 幅 中 重点 介绍 。 


第 4 章 ”编程 模型 


不 自 见 ， 故 明 ; 不 自 是 ， 故 彰 ; TAR, SUR ZI; TAH, HEK 
一 一 《道德 经 》 第 二 十 二 章 
在 面 对 自 我 的 问题 上 ， 不 自我 表扬 ， 反 能 显明 ; 不 自以为是 ， 反 能 彰显 ; TARD, KELA; TARIF, AEKA 


与 许多 专 有 的 大 数据 处 理 平台 不 同 ， 基 于 spark 的 大 数据 处 理 平台 ， 建 立 在 统一 抽象 的 RDD 之 上 ， 这 是 Spark 这 打 小 火花 让 人 着 迷 的 地 方 ， 也 是 学 习 spark 编 程 模型 的 瓶颈 所 在 ， 充 满 了 很 深 的 理论 和 工 
HA 


EH 
-EFdEgzo 


本 章 重 点 讲解 Spark 编 程 模型 的 最 主要 抽象 ， 第 一 个 抽象 是 RDD (Resilient Distributed Dataset， 弹 性 分 布 式 数据 集 ) ， 它 是 一 种 特殊 集合 ,支持 多 种 来 源 ， 有 容错 机 制 ， 可 以 被 缓存 ， 支 持 并 行 操 
作 ; Spark 的 第 二 个 抽象 是 两 种 共享 变量 ， 即 支持 并 行 计算 的 广播 变量 和 累加 器 。 


要 理解 Spark， 就 必须 理解 RDD。 在 学 习 过 程 中 ， 和 希望 能 时 刻 警 醒 自 己 ， 做 到 不 自 见 、 不 自 是 、 不 自 伐 、 不 自 铃 。 


4.1 RDD 介 绍 


基于 Spark 的 大 数据 处 理 平台 ， 建 立 在 统一 抽象 的 RDD 之 上 ，RDD 是 Spark 围 绕 的 核心 概念 ， 也 是 最 主要 的 抽象 之 一 。 对 于 RDD 和 Spark，RDD 是 一 种 具有 容错 性 基于 内 存 的 集群 计算 抽象 方法 ，Spark 
则 是 这 个 抽象 方法 的 实现 。 


4.1.1 RDD 特 征 


简单 来 说 ，Spark 一 切 都 是 基于 RDD 的 ，RDD 就 是 Spark 输 入 的 数据 ， 作 为 输入 数据 的 每 个 RDD 有 五 个 特征 ， 其 中 分 区 、 一 系列 的 依赖 关系 和 遂 数 是 三 个 基本 特征 ， 优 先 位 置 和 分 区 策略 是 可 选 特征 。 
1) 分 区 (partition) : 有 一 个 数据 分 片 列表 ， 能 够 将 数据 进行 切 分 ， 切 分 后 的 数据 能 够 进行 并 行 计算 ， 是 数据 集 的 原子 组 成 部 分 。 

2) BRE (compute) : 计算 每 个 分 片 ， 得 出 一 个 可 遍历 的 结果 ， 用 于 说 明 在 父 RDD 上 执行 何 种 计算 。 

3) 依赖 (dependency) : 计算 每 个 RDD 对 父 RDD 的 依赖 列表 ， 源 RDD 没 有 依赖 ， 通 过 依赖 关系 描述 血统 (lineage) 。 

4) 优先 位 置 (可 选 ) : 每 一 个 分 片 的 优先 计算 位 置 (preferred locations) ， 比 如 HDFS 的 Block 的 所 在 位 置 应 该 是 优先 计算 的 位 置 。 

5) 分 区 策略 (可 选 ) : 描述 分 区 模式 和 数据 存放 的 位 置 ， 键 - 值 对 (key-value) 的 RDD 根 据 哈 希 值 进行 分 区 ， 类 似 于 MapReduce 中 的 Paritioner 接 口 ， 根 据 key 来 决定 分 配 位 置 。 

党 用 的 RDD 有 很 多 种 ， 可 以 说 ， 每 个 Transformation 操 作 都 会 产生 一 种 RDD， 这 里 我 们 以 HadoopRDD、MappedRDD、FilteredRDD、JoinedRDD 为 例 对 特征 进行 说 明 ， 如 表 4-1 所 示 。 


表 4-1 常用 RDD 特 征 说 明 


RDD £f 分 区 策略 

HadoopRDD N E Flock x 

MappedRDD 父 读 取 分 区 中 每 一 行 数据 | 本 地 位 置 
计算 父 RDD 每 个 分 

DJ FLUE 

每 个 Reduce [f | EE H4 Shuffle 数据 并 


无 


FilteredRDD H^ RDD 一 致 | 5% RDD 一 对 一 无 (与 父 RDD 一 致 )| 无 


JoinedRDD 


[ks BR AZ RDD |. JL HashPartitioner 
务 一 个 分 区 计算 


4.1.2 RDD 依 赖 


Spark 中 RDD 的 数据 结构 里 很 重要 的 一 个 域 是 对 父 RDD 的 依赖 ，Spark 中 的 依赖 关系 主要 体现 为 两 种 形式 ， 窄 依赖 (narrow dependency) 和 宽 依 赖 (wide dependency) 。 


图 4-1 对 窄 依赖 和 宽 依 赖 进行 了 说 明 。 
1. 窄 依赖 


窄 依赖 是 指 父 RDD 的 每 一 个 分 区 最 多 被 一 个 子 RDD 的 分 区 所 用 ， 表 现 为 一 个 父 RDD 的 分 区 对 应 于 一 个 子 RDD 的 分 区 (第 一 类 ) ， 或 多 个 父 RDD 的 分 区 对 应 于 一 个 子 RDD 的 分 区 (第 二 类 ) ， 也 就 是 说 
一 个 父 RDD 的 一 个 分 区 不 可 能 对 应 一 个 子 RDD 的 多 个 分 区 。 


Mapf/Filter 


对 输入 作协 同 划分 


对 得 入 作 非 协同 划分 


图 4-1 ERI SCARE 


图 4-1 中 ，Map/Filter 和 Union 属 于 第 一 类 ， 对 输入 进行 协同 划分 (co-partitioned) 的 Join 属 于 第 二 类 (协同 划分 ， 可 以 理解 为 指 多 个 父 RDD 的 某 一 分 区 的 所 有 key， 落 在 子 RDD 的 同一 分 区 的 象限 ， 
会 产生 同一 父 RDD 的 某 一 分 区 ， 落 在 子 RDD 的 两 个 分 区 的 情况 ) 。 


进一步 说 ， 子 RDD 的 每 个 分 区 依赖 于 常数 个 父 分 区 ， 与 数据 规模 无 天 ， 输 入 输出 是 一 对 一 的 算 子 。 当 子 RDD 的 每 个 分 区 依赖 单个 父 分 区 时 ， 分 区 结构 不 会 发 生变 化 ， 如 Map、flatMap; 当 子 RDD 依 赖 
多 个 父 分 区 时 ,分 区 结构 发 生变 化 ， 如 Union.。 


2. 宽 依赖 
宽 依 赖 是 指 子 RDD 的 每 个 分 区 都 依赖 于 所 有 父 RDD 的 所 有 分 区 或 多 个 分 区 ， 也 就 是 说 存在 一 个 父 RDD 的 一 个 分 区 对 应 一 个 子 RDD 的 多 个 分 区 。 
图 4-1 中 的 groupByKey 和 未 经 过 协同 划分 的 Join 属 于 宽 依 赖 。 
3. 依 赖 关系 说 明 
对 两 种 依赖 关系 进行 如 下 说 明 : 
窄 依赖 的 RDD 可 以 通过 相同 的 键 进行 联合 分 区 ， 整 个 操作 都 可 以 在 一 个 集群 节点 上 进行 ， 以 流水 线 (pipeline) 的 方式 计算 所 有 父 分 区 ， 不 会 造成 网 络 之 间 的 数据 混合 。 


宽 依 赖 RDD 会 涉及 数据 混合 ， 宽 依赖 需要 首先 计算 好 所 有 父 分 区 数据 ， 然 后 在 节点 之 间 进 行 Shuffle。 


窄 依赖 能 够 更 有 效 地 进行 失效 节点 的 恢复 ， 重 新 计算 丢失 RDD 分 区 的 父 分 区 
丢失 部 分 分 多， 因而 需要 整体 重新 计算 。 


不 同 节点 之 间 可 以 并 行 计算 ;而 对 于 一 个 宽 依 赖 关系 的 血统 (lineage) 图 ， 单 个 节点 失效 可 能 导致 这 个 RDD 的 所 有 祖先 


~ 


Qum Shuffle 执行 时 固化 操作 ， 以 及 采取 Persist 缓 存 策略 ， 可 以 在 固化 点 ， 或 者 缓存 点 重新 计算 。 


执行 时 ， 调 度 程序 会 检查 依赖 性 的 类 型 ， 将 窒 依 赖 的 RDD 划 到 一 组 处 理 当 中 ， 即 stage。 宽 依赖 在 一 个 执行 中 会 跨越 连续 的 stage， 同 时 需要 显 式 指定 多 个 子 RDD 的 分 区 。 


4.2 创建 RDD 


由 于 Spark 一 切 都 是 基于 RDD 的 ， 如 何 创 建 RDD 就 变 得 非常 重要 ， 除 了 可 以 直接 从 父 RDD 转 换 ， 还 支持 两 种 方式 来 创建 RDD: 
1) 并 行 化 一 个 程序 中 已 经 存在 的 集合 (例如 ， 数 组 ) ; 


2) 引用 一 个 外 部 文件 存储 系统 (HDFS、HBase、Tachyon 或 是 任何 一 个 支持 Hadoop 输 入 格式 的 数据 源 ) 中 的 数据 集 。 
4.2.1 集合 (数组 ) 创建 RDD 


通过 并 行 集合 (数组 ) 创建 RDD， 主 要 是 调用 SparkContext 的 parallelize 方 法 ， 在 Driver (驱动 程序 ) 中 一 个 已 经 存在 的 集合 (数组 ) 上 创建 ，SparkContext 对 象 代表 到 Spark 集 群 的 连接 ， 可 以 用 来 
创建 RDD、 广 播 变 量 和 累加 器 。 可 以 复制 集合 的 对 象 创建 一 个 支持 并 行 操作 的 分 布 式 数据 集 (ParallelCollectionRDD) 。 一 旦 该 RDD 创 建 完成 ， 分 布 数据 集 可 以 支持 并 行 操作 ， 比 如 在 该 集合 上 调用 
Reduce 将 数组 的 元 素 相 加 。 


parallelize 方 法 的 定义 如 下 : 


def parallelize[T] (seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] 


其 中 ， 第 一 个 参数 为 对 象 集 合 ， 第 二 个 参数 为 设 定 的 分 片 数 ， 默 认 值 为 2， 返 回 指定 对 象 类 型 的 RDD。 


下 面 以 Scala 语 言 进行 操作 ， 展 示 如 何 从 一 个 数组 创建 一 个 并 行 集合 ， 并 进行 数组 元 素 相 加 操作 。 


scala» val data = Array(1, 2, 3, 4, 5) 

data: Array[Int] = Array(1, 2, 3, 4, 5) 

Scala» val distData = sc.parallelize (data) 

distData: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0]:-- 
scala» distData.reduce((a, b) => a + b) 

res2: Int = 15 


并 行 集合 创建 的 一 个 重要 参数 是 slices 的 数目 ， 它 指定 了 将 数据 集 切 分 为 几 个 分 区 。 在 集群 模式 中 ，Spark 将 会 在 每 份 slice 上 运行 一 个 Task。 当 然 ， 也 可 以 通过 parallelize 方 法 的 第 二 个 参数 进行 手动 设 
S (如 sc.parallelize (data, 10) ) ， 可 以 为 集群 中 的 每 个 CPU 分 配 2~4 个 slices (也 就 是 每 个 CPU 分 配 2~4 个 Task) 。 


4.2.2 存储 创建 RDD 


Spark 可 以 从 本 地 文件 创建 ， 也 可 以 由 Hadoop 支 持 的 文件 系统 (HDFS、KFS、Amazon S3、Hypertable、HBase 等 ) ， 以 及 Hadoop 支 持 的 输入 格式 创建 分 布 式 数据 集 。 


Spark 支 持 textFile、SequenceFiles 及 任何 Hadoop 支 持 的 输入 格式 。 


1. 从 各 种 分 布 式 文件 系统 创建 


RDD 可 以 通过 SparkContext 的 textFile (文本 文件 ) 方法 创建 ， 其 定义 如 下 : 


def textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String] 


其 中 ， 第 一 个 参数 指定 文件 的 URI 地 址 (本 地 文件 路 径 , 或 者 hdfs: // sdn: //. kfs: //...) ， 并 且 以 “ 行 ” 的 集合 形式 读 取 ， 第 二 个 参数 和 parallelize 方 法 一 样 也 是 用 来 指定 分 片 数 。 下 面 以 Scala 
语言 进行 操作 为 例 ， 展 示 如 何 从 一 个 数组 创建 一 个 并 行 集合 。 


scala> val distFile = sc.textFile( “dfs:// data.txt” ) 
distFile: org.apache.spark.rdd.RDD[String] =spark.HadoopRDD@1d4cee08 


一 旦 创建 了 并 行 集合 ，distFile 变 量 实质 上 转变 成 新 的 RDD， 可 以 使 用 Map 和 Reduce 操 作 将 所 有 行 数 的 长 度 相 加 : 


distFile.map(s => s.length) .reduce((a, b) => a + b). 


Qus 如 果 使 用 本 地 文件 系统 中 的 路 径 ， 那 么 该 文件 在 工作 节点 必须 可 以 被 相同 的 路 径 访问 。 这 可 以 通过 将 文件 复制 到 所 有 的 工作 节点 或 使 用 网 络 挂 载 的 共享 文件 系统 实现 。 
所 有 Spatk 基 于 的 文件 输入 方法 (包括 textFile 方 法 ) ， 都 支持 路 径 、 压 缩 文件 和 通配符 。 可 以 使 用 textFile ("/path") ~ textFile ("/path/*.txt"). 和 textFile ("/path/*.gz") 。 
HDFS 数 据 块 大 小 为 64 的 MB 的 倍数 ，Spark 默 认为 每 一 个 数据 块 创 建 一 个 分 片 。 如 果 需 要 一 个 分 片 包含 多 个 数据 块 ， 可 以 通过 传 入 参数 来 指定 更 多 的 分 片 。 
wholeTextFiles 方 法 可 以 读 取 一 个 包含 多 个 小 的 文本 文件 的 目录 ， 并 通过 键 - 值 对 <filepath，content> (其 中 key 为 文件 路 径 ，value 为 文件 内 容 ) 的 方式 返回 每 一 个 目录 。 而 textFile 函 数 为 每 个 文件 
中 的 每 一 行 返 回 一 个 记录 。 
2. 从 支持 Hadoop 输 入 格式 数据 源 创建 


对 于 其 他 类 型 的 Hadoop 输 入 格式 ， 可 以 使 用 SparkContext.hadoopRDD 方 法 来 加 载 数据 ， 也 可 以 使 用 SparkContext.newHadoopRDD 来 处 理 这 些 基于 新 Mapreduce API 的 输入 格式 。 
RDD.saveAsObjectFile 和 SparkContext.objectFile 支 持 以 序列 化 的 Java 对 象 组 成 简单 的 格式 来 保存 RDD， 并 提供 了 一 个 简单 的 方法 来 保存 任何 RDD。 


4.3 RDD 操 作 


RDD 提 供 了 一 个 抽象 的 分 布 式 数据 架构 ， 我 们 不 必 担 心底 层 数据 的 分 布 式 特 性 ， 而 应 用 逻辑 可 以 表达 为 一 系列 转换 处 理 。 

通常 应 用 逻辑 是 以 一 系列 转换 (Transformation) 和 执行 (Action) 来 表达 的 ， 前 者 在 RDD 之 间 指 定 处 理 的 相互 依赖 关系 ， 后 者 指定 输出 的 形式 。 

其 中 : 

转换 : 是 指 该 操作 从 已 经 存在 的 数据 集 上 创建 一 个 新 的 数据 集 ， 是 数据 集 的 逻辑 操作 ， 并 没有 真正 计算 。 

. 执行 : 是 指 该 方法 提交 一 个 与 前 一 个 Action 之 间 的 所 有 Titansfortmation 组 成 的 Job 进 行 计 算 ，Spatk 会 根据 Action 将 作业 切 分 成 多 个 Job。 

比如 ，Map 操 作 传 递 数据 集中 的 每 一 个 元 素 经 过 一 个 函数 ， 形 成 一 个 新 的 RDD 转 换 结 果 ， 而 Reduce 操 作 通 过 一 些 函 数 对 RDD 的 所 有 元 素 进 行 操作 ， 并 返回 最 终结 果 给 Driver 程 序 。 


在 默认 情况 下 ，Sspark 所 有 的 转换 操作 都 是 惰性 (Lazy) 的 ， 每 个 被 转换 得 到 的 RDD 不 会 立即 计算 出 结果 ， 只 是 记 下 该 转换 操作 应 用 的 一 些 基 础 数据 集 ， 可 以 有 多 个 转换 结果 。 转 换 只 有 在 遇 到 一 个 
Action 时 才 会 执行 ， 如 图 4-2 所 示 。 


Value 


Action 


z 


Transformations 


图 4-2 ”Spatk 转 换 和 执行 
这 种 设计 使 得 Spark 以 更 高 的 效率 运行 。 例 如 ， 可 以 通过 将 要 在 Reduce 操 作 中 使 用 的 Map 转 换 来 创建 一 个 数据 集 ， 并 且 只 返回 Reduce 的 结果 给 驱动 程序 ， 而 不 是 整个 Map 所 得 的 数据 集 。 


每 当 一 个 Job 计 算 完 成 ， 其 内 部 的 所 有 RDD 都 会 被 清除 ， 如 果 在 下 一 个 Job 中 有 用 到 其 他 Job 中 的 RDD,， 会 引发 该 RDD 的 再 次 计算 ， 为 避免 这 种 情况 ， 我 们 可 以 使 用 Persist (默认 是 Cache) 方法 “持久 
化 ”一 个 RDD 到 内 存 中 。 在 这 种 情况 下 ，Spark 将 会 在 集群 中 保留 这 个 RDD， 以 便 其 他 Job 可 以 更 快 地 访问 ， 另外，Spark 也 支持 持久 化 RDD 到 磁盘 中 ， 或 者 复制 RDD 到 各 个 节点 。 


下 面 ， 通 过 几 行 简单 的 程序 ， 进 一 步 说 明 RDD 的 基础 知识 。 


val lines=sc.textFile ("data.txt") 
val lineLengths=lines .map (s=>s.length) 
val totalLength=lineLengths .reduce ( (arb)=>a+b) 


第 一 行 读 取 外 部 文件 data.txt 返 回 一 个 基础 的 MappedRDD， 该 MappedRDD 并 不 加 载 到 内 存 中 或 被 执行 操作 ，lines 只 是 记录 转换 操作 结果 的 指针 。 
第 二 行 定 义 了 lineLengths 作 为 一 个 Map 转 换 的 结果 ， 由 于 惰性 机 制 的 存在 ，lineLengths 的 值 不 会 立即 计算 。 
最 后 ， 运 行 Reduce， 该 操作 为 一 个 Action。spark 将 计算 打 散 成 多 个 任务 以 便 在 不 同 的 机 器 上 分 别 运 行 ， 每 台 机 器 并 行 运行 Map， 并 将 结果 进行 Reduce 操 作 ， 返 回 结果 值 Driver 程 序 。 


如 果 需 要 继续 使 用 lineLengths， 可 以 添加 缓存 Persist 或 Cache， 该 持久 化 会 在 执行 Reduce 之 前 ， 第 一 次 计算 成 功 之 后 ， 将 lineLengths 保 存在 内 存 中 。 


4.3.1 ”转换 操作 


转换 操作 是 RDD 的 核心 之 一 ， 通 过 转换 操作 实现 不 同 的 RDD 结 果 ， 作 为 下 一 次 RDD 计 算 的 数据 和 输入， 转换 操作 不 会 触 帮 Job 的 提交 ， 仪 仅 是 标记 对 RDD 的 操作 ， 形 成 DAG 图 ， 以 供 Action 触 帮 Job 提 交 
后 调用 。 


常用 的 转换 操作 包括 : 基础 转换 操作 和 键 - 值 转换 操作 。 
1. 基 础 转换 操作 


表 4-2 列 出 了 目前 支持 的 基础 转换 操作 ， 具 体内 容 请 参见 RDD 的 API 官 方 文档 ， 以 获得 更 多 的 细节 。 


p 


表 4-2 基础 转换 操作 


转 dh 说 RA 


map(func) 数据 集中 的 每 条 元 率 经 过 func ARE BAUR JE 0 — T 39 UJ r4 GR E 
filter(func) 过 滤 作 用 ， 选 取 数 据 集 中 让 函数 fune 返回 值 为 tme WIR, JE R— 3G SEE 


类 似 map, 但 每 个 输入 项 可 以 被 映 瑞 到 0 个 或 更 多 的 输出 项 (所 以 func 应 该 返 
回 一 个 Seq， 而 不 是 一 个 单独 项 ) 

类 似 map, 但 单独 运行 在 RDD 每 个 分 区 ( 块 )， 因 此 运行 类 型 为 Tpye TRDD 上 
Hf, func 的 类 型 必须 是 Iterator<T> => Iterator<U> 

与 mapPartitions 相似 ， 但 也 要 提供 func 与 一 个 代表 分 区 的 索引 的 整数 值 ， 因 此 
所 运行 的 RDD 为 TpyeT 时 ，fnc 类 型 必须 是 (Int, Iterator<T>) => Iterator<U> 


flatMap(func) 


mapPartitions(func) 


mapPartitionsWithIndex(func) 


转 Hn 说 HR 
sample(withReplacement, fraction, | ”根据 纵 定 的 随机 种 子 seed， 随 机 抽样 出 数量 为 fraction 的 数据 (可 以 选择 有 无 蔡 


seed) 代 (replacement) ) 
union(otherDataset) 返回 一 个 由 原 数 据 集 和 参数 联合 而 成 的 新 的 数据 集 
intersection(otherDataset) jR [n] — 1 £2.52 2G S Ac SEU 8 IDEE] RDD AMSA% 
distinct([numTasks ])) 返回 一 个 数据 集 去 重 过 后 的 新 的 数据 集 
cartesian(otherDataset) 当 在 数据 类 型 为 T 和 TU 的 数据 集 上 调用 时 ， 返 回 由 (TU) 对 组 成 的 一 个 数据 集 


通过 一 个 shell 命令 ， 如 Perl 或 bash 脚本， 流水线 化 各 个 分 区 的 RDD。RDD 元 
了 隶 被 写 人 到 进程 的 stdin， 输 出 到 stdout 的 行将 会 以 一 个 RDD FAE AIJE RIR El 
coalesce(numPartitions) 将 RDD 分 区 的 数目 合并 为 numPartitions 
E RDD 上 随机 重 洗 数据 ， 从 而 创造 出 更 多 或 更 少 的 分 区 以 及 它们 之 间 的 平衡 
时 作 将 重 洗 网 络 上 上 所 有 的 数据 


pipe(command, [envVars|) 


repartition(numPartitions) 


2. 键 - 值 转换 操作 


尽 


管 大 多 数 Spark 操 作 都 基于 包含 各 种 类 型 对 象 的 RDD， 但 是 一 小 部 分 特殊 的 却 只 能 在 键 - 值 对 形式 的 RDD 上 执行 。 其 中 ， 最 普遍 的 就 是 分 布 式 “ 洗 牌 ” (shuffle) 操作 ， 比 如 通过 键 进行 分 组 或 聚合 元 


例如 ， 使 用 reduceByKey 操 作对 文件 中 每 行 出 现 的 文字 次 数 进 行 计 数 ， 各 种 语言 的 示例 如 下 。 


在 Scala 中 ， 只 要 在 程序 中 导入 org.apache.spark.SparkContext， 就 能 使 用 Spark 的 隐 式 转换 ， 这 些 操作 就 可 用 于 包含 二 元 组 对 象 的 RDD (Scala 中 的 内 建 元 组 ， 可 通过 (a, b) 创建 ) 


可 用 PairRDDFunction 类 ， 如 果 导 入 了 转换 ， 该 类 将 自动 封装 元 组 RDD。 
val lines = sc.textFile("data.txt") 
val pairs = lines.map(s => (s, 1)) 
val counts = pairs.reduceByKey((a, b) => a + b) 
基于 counts， 可 以 使 用 counts.sortByKey () 按 字母 表 顺 序 对 这 些 键 - 值 对 排序 ， 然 后 使 用 counts.collect () ， 以 对 象 数组 的 形式 向 Driver 返 回 结果 。 


顺便 阅 一 句 ， 进 行 分 组 的 groupByKey 不 进行 本 地 合并 ， 而 进行 聚合 的 reduceByKey 会 在 本 地 对 每 个 分 区 的 数据 合并 后 再 做 Shuffle， 效 率 比 groupByKey 高 得 多 。 下 面 通 过 几 行 基于 scala 的 代码 对 键 - 
值 转换 操作 进行 说 明 。 


// 初始 化 List 


SCa] 
data: List[(String, Int)] = List((a,1), 


// 


sca] 


rdd: 


// 


Sca 


rbk: 


// 


sca] 


gbk: 


// 


Sca 


sbk: 


a>val data = List(("a",1), ("b",1), ("c",] 
( 


并 行 数组 创建 RDD 
a»val rdd -sc.parallelize (data) 
org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[0] 
按照 key 进行 TeduceByKey 操 作 
a»val rbk = rdd.reduceByKey( + ).collect 

Array[ (String, Int)] = Array((a,3), (b,3), (c,3)) 

按照 key 进 行 9roupByKey 操 作 

a»val gbk = rdd.groupByKey() .collect 

Array[(String, Iterable[l e — Array((a,CompactBuffer(1, 2)), (b, CompactBuffer(1, 2)), (c,CompactBuffer(1, 2))) 
按照 key 进 行 SortBYKey 操 作 
a»val sbk = rdd.sortByKey().collect 

Array[ (String, Int)] = Array((a,1), (a,2), (5,1), (5,2), (c,1), (c,2)) 


表 4-3 列 出 了 常用 的 健 - 值 转换 。 


表 4-3 常用 的 键 - 值 转换 


， 键 - 值 对 操作 


Transformation 


groupByKey([numTasks |) 


reduceByKey(func, [numTasks]) 


sortByKey([ascending]. [numTasks]) 


join(otherDataset, [numTasks ]) 


说 。 朋 
当 在 一 个 由 外 


建 值 对 (K.V) 组 成 的 数据 集 上 调用 时 ， 按 照 Key 进行 分 组 ， 


返回 一 个 (K.IterablecV-) 对 的 数据 集 。 
如 果 是 为 了 按 腿 key 聚合 数据 (如 求 和 或 平均 值 ) 行 分 组 ， 使 用 
sedueeByKey 或 ed 方法 会 产生 更 好 的 ， M^ Eo 
^ j h PAP, 输出 的 并 行程 度 取决 于 父 RDD 的 分 区 数 。 可 以 通过 传 


不 同 的 并 行 任务 数 
个 键 但 对 (K, V) 数据 集 上 调用 时 ， 按 照 key 将 数据 分 组 ， 使 用 给 
E HJ func 聚合 values 值 ， 返 回 一 个 键 - 值 对 (K.V) A ds E, a func pK 
数 的 类 型 必须 是 (VV)=>V。 关 似 于 groupByKey, Reduce 并 行 尾 务 效 可 通 
过 可 选 的 第 二 个 参数 配置 
返回 一 个 以 key 排序 (升序 或 者 降序 ) 的 (K,V) 键 值 对 组 成 的 数据 集 ， 其 
中 布尔 型 参数 ascending WEF HE. 是 M F, m numTasks 为 并 行 任务 数目 
根据 key 连接 两 个 数据 集 ， 将 类 型 为 (K, V) 和 K, W 的 数据 集合 并 成 
-个 (K, (V, W) 类 型 的 数据 集 。 " 连接 通过 leftouterjoin 和 rightouterjoin 


先 的 numtasks 参数 设 ul 


d UE: 


获得 支持 。 其 中 ，numTasks 为 并 行 E 5$ 2X H 
| 当 在 两 个 形 如 (K.V) 和 (K,W) 的 键 - 信 对 数据 集 上 调用 时 ， 返 回 : 
cogroup(otherDataset. [numTasks]) ] ee | 
(K, Iterable<V>, Iterable-W?) 形式 的 数据 集 
4.3.2 ”执行 操作 
Spark 将 提交 的 Action 与 前 一 个 Action 之 间 的 所 有 Transformation 组 成 的 Job 进 行 计 算 ， 并 根据 Action 将 作业 切 分 成 多 个 Job， 指 定 Transformation 的 输出 结果 。 
1. 常 用 执行 操作 
这 里 以 加 载 Spark 自 带 的 本 地 文件 README.md 文 件 进行 测试 ， 返 回 一 个 MappedRDD 文 件 ， 进 行 Filter 转 换 操作 和 Count 执 行 。 
// 读 取 README .md 数据 ， 并 转化 为 RDD 
scala»val data = sc.textFile("file:///SSPARK HOME/README .md") 
data: org.apache.spark.rdd.RDD[String] = file:///$SPARK HOME/README.md MappedRDD[l] 
// 执行 filter 操 作 ， 提 取 带 有 "Spark" 的 子 集 
scala»val datafilter = data.filter(line =>line.contains ("Spark")) 
datafilter: org.apache.spark.rdd.RDD[String] = FilteredRDD[2] 
// 执行 Action 操 作 ， 输 出 结果 
Scala»val datacount = datafilter.count() 
datacount: Long = 21 
如 果 想 了 解 更 多 ， 请 参考 表 4-4 中 列 出 的 常用 的 执行 操作 。 
表 4-4 常用 的 执行 操作 
Action 说 明 
duce(func) 通过 图 数 func 聚集 ied 集中 的 所 有 元 素 ，func 图 数 接 收 两 个 参数 ， 返 回 
rCauccet unc : EN TT bes LA Tr TEWS "M FAI ENE 
-个 值 ， 这 个 函数 必须 满足 交换 律 和 结合 律 ， 以 确保 可 以 被 正确 地 并 发 执行 
llect() 在 Driver 程序 中 ， 以 JE x PIERE PAR 2638 E] Driver 程序 ， 为 
collect — 
| 防止 Driver TE FF VE H8 H EE FE m ul [e] P C P EU 
count() 退回 数据 集 的 元 录 个 7] 
first() iR [91] CS SE BJ S — T 703 
take(n) 以 数组 的 形 - ， 返 回 数据 集 上 的 前 n 个 元 素 


takeSample(withReplacement,num, 
seed) 
takeOrdered(n. [ordering]) 


countByKey() 


foreach(func) 


返回 一 个 数组 ， 由 数据 集中 随机 灯 样 的 num ai 成 ， 可 以 选择 是 下 
用 随机 数 替换 53 足 的 部 分 ，seed 用 于 指定 的 随机 煞 生 成 着 种 于 

[d FEL ART FE SY, ÉL XE X FER. 1 AT n 个 RDD 元 素 

只 能 运用 在 键 - 值 对 类 型 的 RDD 上 ， 即 type(K,V)。 返 回 一 个 形 如 (k,int) 


对 每 个 key 的 个 数 进 行 计数 
在 数据 集 的 每 个 元 系 上 运行 func, CERES BEH, 
或 与 外 部 存储 系统 相互 作用 


的 hashmap. 


We UE SEMI ET En 


通过 常用 执行 操作 ，Spark 可 以 实现 大 部 分 MapReduce 流 式 计算 的 任务 ， 提 升 了 计算 效率 ， 对 Transformation 操 作 进行 结果 值 输出 。 


2. 存 储 执行 操作 


常用 存储 操作 主要 包含 的 执行 如 表 4-5 所 示 。 


表 4-5 ”常用 存储 操作 包含 的 执行 


Action 说 BR 
将 数据 集 的 元 率 作 为 一 个 文本 文件 (或 文本 文件 的 集合 ) 保存 于 本 地 文件 系统 中 
saveAsTextFile(path) 的 给 定 目录 、HDFS 或 任何 其 他 Hadoop HDFS 文 持 的 文件 系统 。Spark 会 对 每 个 


JU JA] H] toString 方法 将 其 转换 为 一 个 文件 中 的 文本 行 

将 数据 集 的 元 系 在 本 地 文件 系统 中 以 sequencefile 的 格式 保存 至 指定 路 生 、 
Hadoop HDFS 或 Hadoop 支持 的 任何 其 他 文件 系统 

该 方法 可 作用 于 任意 实现 了 Hadoop 的 读 写 接口 的 RDD 键 - 值 对 

在 Scala 中 ， 它 也 可 以 隐 式 转换 为 可 写 的 数据 类 型 ( Spark 文 持 对 基本 类 型 的 转 
换 ， 如 Int, Double, String 等 ) 

saveAsObjectFile(path)(Java| 使 用 Java 夺 列 化 将 数据 集 的 元 双 写 入 到 一 个 徊 单 的 格式 中 ， 该 棕 式 的 数据 可 以 
and Scala) 使 用 SparkContext 的 objectfile() 图 数 加 载 


saveAsSequenceFile(path) 


(Java and Scala) 


存储 执行 操作 将 结果 进行 保存 ， 以 文本 、 序 列 化 文件 、 对 象 文件 的 方式 输出 到 存储 设备 进行 持久 化 。 


4.3.3 ”控制 操作 

控制 操作 主要 包括 故障 恢复 、 数 据 持 久 性 ， 以 及 移 除 数据 。 其 中 ， 缓 存 操作 Cache/Pesist 是 惰性 的 ， 在 进行 执行 操作 时 才 会 执行 ， 而 Unpesist 是 即时 的 ， 会 立即 释放 内 存 。checkpoint 会 直接 将 RDD 持 
入 化 到 磁盘 或 HDFS 等 路 径 ， 不 同 于 Cache/Persist 的 是 ， 被 checkpoint 的 RDD 不 会 因 作业 的 结束 而 被 消除 ， 会 一 直人 存在 ， 并 可 以 被 后 续 的 作业 直接 读 取 并 加 载 。 
1.RDD 故 障 恢复 


在 一 个 典型 的 分 布 式 系统 中 ， 容 错 机 制 主 要 是 采取 检查 点 (checkpoint) 机 制 和 数据 备份 机 制 。 故 障 恢复 是 由 主动 检查 ， 以 及 不 同 机 器 之 间 的 数据 复制 实现 的 。 由 于 进行 故障 恢复 需要 跨 集群 网 络 来 复 
制 大 量 数据 ， 这 无 疑 是 相当 昂贵 的 。 因 此 ， 在 Spark 中 则 采取 了 不 同 的 方法 进行 故障 恢复 。 


作为 一 个 大 型 的 分 布 式 集群 ，Spark 针 对 工作 负载 会 做 出 两 种 假设 : 

. 处 理 时 间 是 有 限 的 ; 

. 保持 数据 持久 性 是 外 部 数据 源 的 职责 ， 主 要 是 让 处 理 过 程 中 的 数据 保持 稳定 。 

基于 假设 ，Spark 在 执行 期 间 发 生 数 据 丢 失 时 会 选择 折 中 方案 ， 它 会 重新 执行 之 前 的 步骤 来 恢复 丢失 的 数据 ， 但 并 不 是 说 丢弃 之 前 所 有 已 经 完成 的 工作 ， 而 重新 开始 再 来 一 遍 。 
假如 其 中 一 个 RDD 坏 掉 ，RDD 中 有 记录 之 前 的 依赖 关系 ， 且 依赖 关系 中 记录 算 子 和 分 区 。 此 时 ， 仪 仅 需 要 再 执行 一 遍 父 RDD 的 相应 分 区 。 


但 是 ， 跨 宽 依 赖 的 再 执行 能 够 涉及 多 个 父 RDD， 从 而 引发 全 部 的 再 执行 。 为 了 规避 这 一 点 ，Spark 会 保持 Map 阶 段 中 间 数 据 输出 的 持久 ， 在 机 器 发 生 故 障 的 情况 下 ， 再 执行 只 需要 回 湖 Mapper 持 续 输 
出 的 相应 分 区 ， 来 获取 中 间 数 据 。 


Spark 还 提供 了 数据 检查 点 和 记录 日 志 ， 用 于 持久 化 中 间 RDD， 这 样 再 执行 就 不 必 追 溯 到 最 开始 的 阶段 。 通 过 比较 恢复 延迟 和 检查 点 开销 进行 权衡 ，Spark 会 自动 化 地 选择 相应 的 策略 进行 故障 恢复 。 


2.RDD 持 久 化 
Spark 的 持久 化 ， 是 指 在 不 同 转换 操作 之 间 ， 将 过 程 数据 缓存 在 内 存 中 ， 实 现 快速 重用 ,或 者 故障 快速 恢复 。 持 久 化 主要 分 为 两 类 ， 主 动 持久 化 和 自动 持久 化 。 


主动 持久 化 ， 主 要 目标 是 RDD 重 用 ， 从 而 实现 快速 处 理 ， 是 Spark 构 建 迭代 算法 的 关键 。 例 如 ， 持 久 化 一 个 RDD， 每 一 个 节点 都 将 把 它 的 计算 分 块 结果 保存 在 内 存 中 ， 并 在 该 数据 集 (或 者 衍生 数据 
集 ) 进行 的 后 续 Action 中 重用 ， 使 得 后 续 Action 执 行 变 得 更 加 迅速 (通常 快 10 倍 ) 。 


可 以 使 用 persist () 方法 标记 一 个 持久 化 的 RDD， 一 旦 被 一 个 执行 (action) 触发 计算 ， 它 将 会 被 保留 在 计算 节点 的 内 存 中 并 重用 。 如 果 RDD 的 任 一 分 区 丢失 ， 通 过 使 用 原先 创建 的 转换 操作 ， 它 将 会 
被 自动 重 算 ， 不 需要 全 部 重 算 ， 而 只 计算 丢失 的 部 分 。 


此 外 ， 每 一 个 RDD 都 可 以 用 不 同 的 保存 级 别 进 行 保 存 ， 从 而 允许 持久 化 数据 集 在 硬盘 或 内 存 作 为 序列 化 的 Java 对 象 (节省 空间 ) ， 甚 至 跨 节 点 复制 。 
持久 化 的 等 级 选择 ， 是 通过 将 一 个 StorageLevel 对 象 传递 给 persist () 方法 进行 确定 的 ，cache () 方法 调用 persist () 的 默认 级 别 MEMORY_ONLY。 表 4-6 是 持久 化 的 等 级 。 


表 4-6 ”持久 化 的 等 级 


存储 等 级 (StorageLevel) 说 明 


将 RDD 作为 反 序 列 化 的 对 象 存 储 于 JVM 中 ， 如 果 内 存 不 足 ， —4 
会 被 缓存 ， 在 需要 时 会 被 重新 计算 


将 RDD 作 ca 施 列 化 的 对 象 存 储 在 JVM 中 ， 如 果 内 存 不 足 ， 超 出 的 分 区 将 


x 将 不 


MEMORY ONLY 


MEMORY AND DISK 被 保存 在 硬 i] ， 并 且 在 需要 时 被 读 取 
Bu: 会 立 | 由 输出 数据 到 磁盘 


Tf RDD TUI OMIM Java 对 和 象 进 行 存 储 (每 一 分 区 占用 一 个 宇 市 数组 )。 通 
MEMORY ONLY SER doe. J 和 对 象 反 序列 化 的 空间 利用 率 更 高 ， 尤 其 当 使 用 fast serializer Bf. 
[HEH Fin AF HJ CPU 
MEMORY ONLY SER 相似 ， 但 超出 内 存 的 分 区 将 存储 在 硬盘 上 ， 
MEMORY AND DISK SER em 要 时 重新 计 和 名 个 
tt UC p | Jr 


DISK ONLY 将 RDD 分 区 存储 在 硬盘 


而 不 是 


MEMORY ONLY 2, MEMORY 


5 EARR MII—tFE, IHE REP 两 个 集群 节点 上 
AND DISK 2 J HEA EESE H , 但 是 | hj: ^ DX Hb E: | 到 | 两 CY PÉ IJ Ei F 


OFF _ HEAP 将 RDD 以 序列 化 格式 存储 于 Tachyon 中 
相对 于 MEMORY_ONLY_SER，OFF_HEAP 减 小 了 垃圾 回收 的 开销 ， 同 时 也 允许 Executor 变 得 更 小 且 可 共享 内 存储 备 ，Executor 的 骨 溃 不 会 导致 内 存 中 的 缓存 丢失 。 在 这 种 模式 下 ，Tachyon 中 的 内 存 
ARI FH. 
自动 持久 化 ， 是 指 不 需要 用 户 调用 persist () ，Spark 自 动 地 保存 一 些 Shuffle 操 作 (如 reduceByKey) 的 中 间 结 果 。 这 样 做 是 为 了 避免 在 Shuffle 过 程 中 一 个 节点 崩溃 时 重新 计算 所 有 的 输入 。 
持久 化 时 ， 一 旦 设置 了 就 不 能 改变 ， 想 要 改变 就 要 先 去 持久 化 。 推 荐 用 户 在 重用 RDD 结 果 时 调用 Persist， 这 样 会 使 持久 化 变 得 可 控 。 


Persist 持 久 化 RDD， 修 改 了 RDD 的 meta info 中 的 StorageLevel。 而 检查 点 在 持久 化 的 同时 切断 Lineage， 修 改 了 RDD 的 meta info 中 的 Lineage。 二 者 均 返 回 经 过 修改 的 RDD 对 象 自身 ， 而 非 新 的 RDD 
对 象 ， 也 均 属 于 Lazy 操 作 。 


3. 选 择 存储 等 级 
Spark 的 不 同 存储 级 别 ， 旨 在 满足 内 存 使 用 和 CPU 效率 权衡 上 的 不 同 需求 ， 建 议 通 过 以 下 步骤 进行 选择 : 
“ 如 果 你 的 RDD 可 以 很 好 地 与 默认 的 存储 级 别 (MEMORY ONLY) 回合 ， 那 么 就 不 需要 做 任何 修改 。 这 已 经 是 CPU 使 用 效率 最 高 的 选项 ， 它 使 RDD 的 操作 尽 可 能 快 。 
C 如 果 不 能 与 MEMORY_ONLY 很 好 地 契合 ， 建 议 使 用 MEMORY_ONLY_SER 并 选择 一 个 快速 序列 化 的 库 ， 使 对 象 在 有 较 高 空间 使 用 率 的 情况 下 ， 依 然 可 以 较 快 地 被 访问 。 
“ 尽 可 能 不 要 存储 数据 到 硬盘 上 ， 除 非 计 算数 据 集 的 函数 ， 计 算 量 特别 大 ， 或 者 它们 过 滤 了 大 量 的 数据 。 否 则 ， 重 新 计算 一 个 分 区 的 速度 与 从 硬盘 中 读 取 的 效率 差不多 。 


如 果 想 拥有 快速 故障 恢复 能 力 ， 可 使 用 复制 存储 级 别 〈 例 如， 用 Spatk 来 响应 Web 应 用 的 请 求 ) 。 所 有 的 存储 级 别 都 有 通过 重新 计算 丢失 数据 恢复 错误 的 容错 机 制 ， 但 是 复制 存储 级 别 可 以 让 你 在 RDD 
上 和 持续 地 运行 任务 ， 而 不 需要 等 待 丢失 的 分 区 被 重新 计算 。 


. 如 果 想 要 定义 自己 的 存储 级 别 (如 复制 因子 为 3 而 不 是 2) ， 可 以 使 用 StorageLevel 单 例 对 象 的 apply O 方法 。 
4. 移 除数 据 
RDD 可 以 随意 在 RAM 中 进行 缓存 ， 因 此 它 提 供 了 更 快速 的 数据 访问 。 目 前 ， 缓 存 的 粒度 为 RDD 级 别 ， 只 能 缓存 全 部 的 RDD。 
Spark 自 动 监视 每 个 节点 上 使 用 的 缓存 ， 在 集群 中 没有 足够 的 内 存 时 ，Spark 会 根据 缓存 情况 确定 一 个 LRU (Least Recently Used， 最 近 最 少 使 用 算法 ) 的 数据 分 区 进行 删除 。 


如 果 想 手动 删除 RDD， 而 不 想 等 待 它 从 缓存 中 消失 ， 可 以 使 用 RDD 的 unpersist () 方法 移 除 数据 ，unpersist () 方法 是 立即 生效 的 。 


44 ”共享 变量 


一 般 来 说 ， 当 一 个 被 传递 给 Spark 操 作 (例如 ，Map 和 Reduce) 的 函数 在 一 个 远程 集群 上 运行 时 ， 该 函数 实际 上 操作 的 是 它 用 到 的 所 有 变量 的 独立 副本 。 


这 些 变量 会 被 复制 到 每 一 台 机 器 ， 在 远程 机 器 上 对 变量 的 上 所 有 更 新 都 不 会 传 回 主 驱动 程序 。 默 认 来 说， 当 Spark 以 多 个 Task 在 不 同 的 Worker 上 并 发 运行 一 个 函数 时 ， 它 传递 每 一 个 变量 的 副本 并 缓存 在 
Worker 上 ， 用 于 每 一 个 独立 Task 运 行 的 函数 中 。 


有 了 时， 我 们 需要 变量 能 够 在 任务 中 共享 ， 或 者 在 任务 与 驱动 程序 之 间 共 享 。 
而 Spark 提 供 两 种 模式 的 共享 变量 : 广播 变量 和 替 加 器 。Spark 的 第 二 个 抽象 便 是 可 以 在 并 行 计算 中 使 用 的 共享 变量 。 
` 广播 变量 : 可 以 在 内 存 的 所 有 节点 中 被 访问 ， 用 于 缓存 变量 (只 读 ) ; 


“ 累加 器 : 只 能 用 来 做 加 法 的 变量 ， 如 计数 和 求 和 。 


广播 变量 允许 程序 员 保留 一 个 只 读 的 变量 ， 缓 存在 每 一 台 Worker 节 点 的 Cache， 而 不 是 每 个 Task 发 送 一 份 副本 。 例 如 ， 可 以 给 每 个 Worker 节 点 设置 一 个 输入 数据 集 副 本 ，sSpark 会 党 试 使 用 一 种 高 效 
的 广播 算法 传播 广播 变量 ， 从 而 减少 通信 的 代价 。 


广播 变量 是 通过 调用 SparkContext.broadcast (v) 方法 从 变量 v 创 建 的 ， 广 播 变 量 是 一 个 v 的 封装 ， 它 的 值 可 以 通过 调用 value 方 法 获得 ， 代 码 如 下 : 


Scala» val broadcastVar = sc.broadcast(Array(1, 2, 3)) 

broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast (0) 
scala» broadcastVar.value 

res0: Array[Int] = Array(1, 2, 3) 


在 广播 变量 被 创建 后 ， 可 以 在 集群 运行 的 任何 函数 中 代 蔡 v 值 被 调用 ， 由 于 v 值 在 第 一 次 调用 后 缓存 到 任务 节点 ， 重 复 调 用 时 不 需要 被 再 次 传递 到 这 些 节点 上 。 另 外 ， 对 象 v 不 能 在 广播 后 修改 ， 这 样 可 以 
保证 所 有 节点 收 到 相同 的 广播 值 。 


4.4.2 ”时 加 器 


累加 器 是 一 种 只 能 通过 关联 操作 进行 “加 ”操作 的 变量 ， 因 此 可 以 在 并 行 计算 中 得 到 高 效 的 支持 。 类 似 MapReduce 中 的 counter， 可 以 用 来 实现 计数 和 求 和 等 功能 。Spark 原 生 支 持 Int 和 Double 类 型 
的 累加 器 ， 程 序 员 可 以 自己 添加 新 的 支持 类 型 。 


累加 器 可 以 通过 调用 SparkContext.accumulator (v) 方法 从 一 个 初始 值 v 中 创建 。 运 行 在 集群 上 的 任务 ， 可 以 通过 使 用 += 进 行 罕 加 ， 但 是 不 能 进行 读 取 。 只 有 主 程序 可 以 使 用 value 的 方法 读 取 累加 器 
的 值 。 


下 面 的 代码 展示 了 如 何 利用 累加 器 ， 将 一 个 数组 里 面 的 所 有 元 素 相 加 。 


Scala» val accum = sc.accumulator (0) 

accum: org.apache.spark.Accumulator[Int] - 0 

Scala» sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x) 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
*** INFO scheduler.DAGScheduler: Stage 0 finished in 0.111 s 
*** INFO spark.SparkContext: Job finished took 0.288603412 s 
scala» accum.value 

resl: Int = 10 


当然 ， 这 段 代 码 使 用 的 是 累加 器 内 置 支 持 的 Int 类 型 ， 程 序 员 也 可 以 通过 创建 AccumulatorParam 的 子 类 来 创建 自己 的 类 型 。 该 AccumulatorParam 接 口 有 两 个 方法 : 提供 了 一 个 “zero” 值 进行 初始 
化 ， 以 及 一 个 addlnPlace 方 法 将 两 个 值 相 加 ， 如 果 需 要 可 以 自己 尝试 需要 的 类 型 ， 如 Vector。 


4.5 ”本章 小 结 


总 之 ，RDD 是 Spark 的 核心 ， 也 是 整个 park 的 架构 基础 。RDD 是 在 集群 应 用 中 分 享 数 据 的 一 种 高 效 、 通 用 、 容 错 的 抽象 ， 是 由 Spark 提 供 的 最 重要 的 抽象 的 概念 ， 它 是 一 种 有 容错 机 制 的 特殊 集合 ， 可 
以 分 布 在 集群 的 节点 上 ， 以 函数 式 编 程 操 作 集 合 的 方式 ， 进 行 各 种 并 行 操 作 。 


本 章 重点 讲解 了 如 何 创建 Spark 的 RDD， 以 及 RDD 的 一 系列 转换 和 执行 操作 ， 并 给 出 一 些 基于 Scala 编 程 语言 的 支持 。 并 对 广播 变量 和 累加 器 两 种 模式 的 共享 变量 进行 了 讲解 ， 但 是 在 此 仪 仅 讲解 了 RDD 
的 基础 相关 部 分 ， 对 RDD 在 执行 过 程 中 的 依赖 转换 ， 以 及 RDD 的 可 选 特征 优先 计算 位 置 (preferred locations) 和 分 区 策略 ， 并 没有 进行 详细 描述 ， 在 后 面 的 章节 中 会 结合 实例 对 此 进行 重点 讲述 。 


第 5 草 作业 执行 解析 


天 长 地 久 ， 天 地 所 以 能 长 且 久 者 ， 以 其 不 自生 ， 故 能 长 生 。 


一 一 《道德 经 》 第 七 章 


天 长 地 久 ， 天 地 之 所 以 能 长 久 存在 ， 是 因为 它们 不 为 了 自己 的 生存 而 自然 地 运行 着 ， 所 以 能 够 长 久生 存 。 因 此 ， 有 道 的 人 遇 事 谦 退 无 争 ， 反 而 能 在 众人 之 中 领先 ; 将 自己 置 于 度 外 ， 反 而 能 保全 自身 。 


如 水 的 大 数据 ， 正 是 把 自己 置身 名 利之 外 ， 一 切 以 解决 实际 问题 为 核心 。 研 究 Spark 的 作业 执行 ， 是 把 握 大 数据 解决 实际 问题 的 关键 。 本 章 通过 对 Spark 组 件 、RDD 图 、DAG 图 的 讲解 ， 基 于 
Standalone 和 YARN 的 Spark 架 构 的 分 析 ， 以 及 Spark 事 件 流 的 分 析 ， 通 过 构建 运行 时 环境 、 应 用 程序 转换 DAG 图 、 调 度 执行 DAG 图 、 销 毁 运行 时 环境 完成 整个 作业 执行 生命 周期 。 


5.1 基本 概念 


spark 的 基本 组 件 ， 包 括 负责 集群 运行 的 Master 和 Worker， 负 责 作业 运行 的 Client 和 Driver， 以 及 负责 集群 资源 管理 器 (如 YARN) 和 执行 单元 Executor 等 ， 并 在 组 件 的 基础 上 ， 对 基于 RDD 数 据 集 的 
静态 视图 和 基于 Partition 的 动态 视图 进行 了 说 明 ， 为 接 下 来 的 作业 执行 流程 做 了 铺垫 。 


5.1.1 _ Spark 组 件 


从 架构 层面 上 来 说 ， 每 一 个 Spark Application 都 由 控制 集群 的 主 控 节 点 Master、 负 责 集群 资源 管理 的 Cluster Manager、 执 行 具 体 任务 的 Worker 节 点 和 执行 单元 Executor、 负 责 作 业 提 交 的 Client 端 
和 负责 作业 控制 的 Driver 进 程 组 成 ， 如 图 5-1 所 示 。 


Worker Node 


Master( Driver) 
Executor 
RDD Graph 
一 Er Task Threads 
sparkClient — |: Scheduler | 
SparkContect sc-new : | BlockManager 
SparkContext( ) ... | | 
Block Tracker —— 
Shuffle Tracker I 
HDFS, HBase 


图 5-1 Spark ża 4 


SparkClientfazsft2sB8ybeaz, Driven aAa TA EA BgmainggZi, EER LATEA EA. Rr, SparkContextz&jvFHEEERESSEBEASRBUNE—HDB, FRE: 获取 数据 、 交 互 操 
作 、 分 析 和 构建 DAG 图 、 通 过 Scheduler 调 度 任务 、Block 跟 踪 、Shuffle 跟 踪 等 。 


用 户 通过 Client 提 交 一 个 程序 给 Driver 之 后 ，Driver 会 将 所 有 RDD 的 依赖 关联 在 一 起 绘制 成 一 张 DAG 图 ; 当 运 行 任务 时 ， 调 度 Scheduler 会 配合 组 件 Block Tracker 和 Shuffle Tracker 进 行 工 作 ; 通过 
ClusterManager 进 行 资源 统一 调配 ;具体 任务 在 Worker 节 点 进行 ， 由 Task 线 程 池 负 责 具体 任务 执行 ， 线 程 池 通 过 多 个 Task 运 行 任务 。 由 BlockManager 进 行 存储 管理 ， 数 据 在 内 存 中 可 以 保存 多 份 ， 一 方 
面 进行 备份 ， 另 一 方面 支持 RetryTask 和 StragglingTask 快 速 恢 复 。 


5.1.2 RDD 视 图 


spark 的 核心 是 基于 RDD 的 抽象 ， 如 图 5-2 所 示 ， 可 分 为 基于 RDD 数 据 的 静态 视图 和 基于 Partition 分 区 的 动态 视图 。 


Dataset-level view: Partition-level view: 


HadoopRDD 
path-hdfs:// 


FilteredRDD 


func= .contains(...) 


图 5-2 RDD 数 据 视图 和 分 区 视图 
图 5-2 中 ， 对 三 个 数据 分 片 的 计算 任务 ， 启 动 了 三 个 Task 任 务 ， 每 个 任务 都 需要 单独 作用 于 RDD 数 据 集 的 代码 ， 返 回执 行 结果 给 新 的 RDD。 


以 word count 计 算 为 例 ， 图 5-3 给 出 了 word count 程 序 的 RDD 之 间 的 依赖 图 。 


Hadoop- *]atMapped- Flltered- MapPartitions- MapPartitions- 
RDD RDD RDD RDD | RDD 


Hadoop- "JatMapped- Filtered- MapPartitions- | MapPartitions- 
RDD RDD RDD RDD 


Hadoop- ‘latMapped- Filtered- MapPartitions- MapPartitions- 
RDD RDD RDD RDD RDD 


图 5-3 word count 的 RDD 依 赖 图 


分 析 图 5-3， 图 中 ShulffledRDD 产 生 宽 依赖 而 将 整个 DAG 图 划分 成 两 个 Stage。 第 一 个 Stage 由 HadoopRDD 到 MapPartitionsRDD， 生 成 ShuffleMapTask， 第 二 个 Stage 由 ShulffledRDD 到 
MapPartitionsRDD， 生 成 ResultTask。 第 一 个 Stage 是 由 三 个 ShuffleMapTask 通 过 Pipeline 的 方式 并 行 执行 ， 直 至 三 个 Task 均 执行 结束 至 MapPartitionsRDD 处 。ShuffleMapTask 会 产生 一 些 中 间 结 果 ， 
而 这 些 中 间 结 果 又 是 第 二 个 Stage 中 ResultTask 的 输入 。 那 么 这 些 中 间 结 果 是 如 何 递交 至 ResultTask 的 呢 ?ShuffleMapTask 的 返回 值 类 型 是 MapStatus， 其 中 包含 一 些 计算 的 状态 ， 而 具体 的 中 间 结 果 则 是 
写 入 磁盘 ; 而 ResultTask 在 调用 ShuffleRDD 时 则 是 通过 BlockManager 去 磁盘 中 读 取 中 间 结 果 。 


5.1.3 DAG 图 


在 图 论 中 ， 如 果 一 个 有 向 图 无 法 从 任 一 顶点 出 发 经 过 若干 条 边 回 到 该 点 ， 则 这 个 图 是 一 个 有 向 无 环 图 (Directed Acyclic Graph, DAG) 。 


有 向 无 环 图 是 描述 一 项 工程 进行 过 程 的 有 效 工 具 。 除 最 简单 的 情况 之 外 ， 几 乎 所 有 的 工程 (project) 都 可 分 为 若干 个 称 为 “活动 ” (activity) 的 子 工程 ， 而 这 些 活 动 子 工 程 之 间 ， 通 常 受 着 一 定 条 件 的 
约束 ， 如 其 中 某 些 子 工程 的 开始 必须 在 另 一 些 子 工程 完成 之 后 。 


定义 节点 为 活动 ， 有 向 边 的 指向 表示 活动 执行 的 次 序 。 举 例 来 说， 假设 有 A、B、C、D 一 共 四 个 数据 集 ， 其 中 B 数 据 集 依赖 于 A，(5C 数 据 集 依赖 于 B8，D 数 据 集 依 赖 于 C， 针 对 A、B、C、D 数 据 集 的 依赖 关 
系 绘制 成 一 张 图 DAG 图 ， 如 下 所 示 : 


针对 该 DAG 图 ， 集 合 的 顶点 是 A， 通 过 有 向 边 A 一 B， 连 接 到 集合 B，B 通 过 有 向 边 B 一 C， 连 接 到 集合 C，(C 通 过 有 向 边 C 一 D， 连 接 到 集合 D。 这 样 ， 在 集合 的 顶点 A 开 始 ， 沿 着 有 序 的 边 ， 最 终 循环 再 次 
回 到 A 是 不 可 能 的 。 


在 Spark 中 ，DAG 图 绘制 完毕 ， 不 会 被 立即 执行 ， 而 是 仅 仪 对 数据 集 进行 标记 。 


5.2 -作业 执行 流程 


提交 作业 有 两 种 方式 ， 分 别 是 Driver 运 行 在 集群 中 ，Driver 运 行 在 客户 端 ， 接 下 来 分 别 介绍 两 种 方式 的 作业 运行 原理 。 
无 论 基 于 哪 种 运行 方式 ， 基 础 概念 是 一 致 的 。 

Stage ， 一 个 Spatk 作 业 一 般 包 含 一 到 多 个 Stage。 

* Task， 一 个 Stage 包 含 一 到 多 个 Task， 通 过 多 个 Task 实 现 并 行 运行 的 功能 。 


DAGScheduler， 实 现 将 Spatk 作 业 分 解 成 一 到 多 个 Stage， 每 个 Stage 根 据 RDD 的 Partition 个 数 决 定 Task 的 个 数 ， 然 后 生成 相应 的 TaskSet 放 到 TaskScheduler 中 。 


5.2.1 基于 Standalone 模 式 的 Spark 架 构 


在 Standalone 模 式 下 有 两 种 运行 方式 : 以 Driver 运 行 在 Worker 上 和 以 Driver 运 行 在 客户 端 ， 图 5-4 给 出 了 Standalone 模 式 下 两 种 运行 方式 的 架构 。 这 两 种 运行 方式 可 以 通过 参数 --deploy-mode 进 行 
配置 ， 默 认 是 Client 模 式 ( 即 Driver 运 行 在 客户 端 。 集 群 启 动 Master 与 Worker 进 程 ，Master 负 责 接收 客户 端 提交 的 作业 ， 管 理 Worker， 并 提供 Web 展 示 集 群 与 作业 信息 。 


Driver run on client 


Driver run on worker 


Master 


bxecutor 


( Executor 


Executor 


Executor 


图 5-4 Standalone fg Spark %4 


在 整个 框架 下 ， 各 种 进程 角色 如 下 。 


: Master: 主 控 节 上 点， 负责 接 收 Client 提 交 的 作业 ， 管 理 Wotket， 并 命令 Wotket 启 动 Dfivef 和 Executot。 
命令 ， 启 动 Driver 和 Executotr。 


Worker: Slave 节 点 上 的 守护 进程 ， 负 责 管 理 本 节点 的 资源 ， 定 期 向 Mastet 汇 报 心 跳 ， 接 收 Mastet 的 


: Client: 客户 端 进程 ， 负 责 提 交 作 业 到 Mastet。 
: Driver: 一 个 Spatk 作 业 运 行 时 包括 一 个 Dtivet 进 程 ， 也 是 作业 的 主 进程 ， 负 责 DAG 图 的 构建 、Stage 的 划分 、Task 的 管理 及 调度 以 及 生成 SchedulerfBackend 用 于 Akka 通 信 。 主 要 组 件 包 括 DAGScheduler、 


TaskSchedulet 及 ScheduletBackend。 
: Executor: 执行 作业 的 地 方 。 每 个 Application 一 般 会 对 应 多 个 Worker,， 但 是 一 个 Application 在 每 个 Worker 上 只 会 产生 一 个 Executor 进 程 ， 每 个 Executor 接 收 Drivet 的 命令 LaunchTask， 一 个 Executot 可 以 执 


行 一 到 多 个 Task。 
提交 一 个 任务 到 集群 ， 以 Standalone 为 例 ， 首 先 启动 Master， 然 后 启动 Worker， 启 动 Worker 时 要 向 Master 注 册 。Standalone 作 业 执 行 流程 如 图 5-5 所 示 。 
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e LaunchTask = Executor 


Driver 
图 5-5 Standalone 作 业 执 行 流程 


下 面 详 细 讲 解 Standalone 作 业 执 行 流程 : 
需要 注册 并 加 载 Driver， 然 后 由 Driver 注 册 应 用 程序 ， 由 Master 去 Launch 上 有 具体 的 Executor 资 源 ， 由 Driver 去 触发 EXxecutor 进 程 Launch 具 体 的 Task。 


Master 收 到 应 用 程序 提交 之 后 ， 

作业 执行 流程 详细 描述 : 

客户 端 提交 作业 给 Master，Masteri 上 一 个 Worker 启 动 Driver， 即 SchedulerBackend。Worker 创 建 一 个 DriverRunner 线 程 ，DriverRunner 启 动 SchedulerBackend 进 程 。 另 外 ，Master 还 会 让 其 余 
Worker 启 动 Executor， 即 ExecutorBackend。Worker 创 建 一 个 ExecutorRunner 线 程 ，ExecutorRunner 会 启动 ExecutorBackend 进 程 。ExecutorBackend 启 动 后 会 向 Driver 的 SchedulerBackend 注 册 。 


SchedulerBackend 进 程 中 包含 DAGScheduler， 它 会 根据 用 户 程序 生成 执行 计划 ， 并 调度 执行 。 对 于 每 个 Stage 的 Task， 都 会 被 存放 到 TaskScheduler 中 ，ExecutorBackend 向 SchedulerBackend 汇 报时 
把 TaskScheduler 中 的 Task 调 度 到 ExecutorBackend 执 行 。 所 有 Stage 都 完成 后 作业 结束 。 


程序 执行 过 程 中 ， 由 Worker 节 点 向 Master 发 送 心 跳 ， 随 时 汇报 Worker 的 健康 状况 。 


针对 几 种 故障 情况 ， 给 出 了 相应 的 处 理 方案 : 


第 一 种 情况 ，Worker 节 点 出 现 故障 。Worker 在 退出 之 前 ， 会 将 该 Worker 上 的 Executor 杀 掉 ; 而 Worker 是 需要 定期 发 送 心跳 给 Master 的 ，Master 通 过 心跳 机 制 能 够 感知 到 该 Worker 节 点 的 故障 ， 而 
后 将 该 情况 汇报 给 Driver， 并 将 该 Worker 从 节点 中 移 除 ; 这 样 ，Driver 即 可 知道 该 Worker 上 对 应 的 Executor 已 被 杀 死 。 


第 二 种 情况 ，Executor 出 现 问题 。ExecutorRunner 会 将 情况 汇报 给 Master， 从 而 Master 便 知道 该 Executor 出 现 问题 。 但 是 此 时 运行 该 Executor 的 Worker 是 正常 的 ， 因 此 Master 会 发 送 
LaunchExecutor 指 令 给 该 Worker， 让 其 再 次 启动 一 个 Executor: 而 Worker 收 到 LaunchExecutor 指 令 后 便 再 次 启动 Executor。 


第 三 种 情况 ，Master 出 现 故障 ， 通 过 Zookeeper 搭 建 Master 的 HA， 一 个 作为 Active， 其 他 的 作为 Standby， 一 旦 Active 节 点 出 现 故 障 ， 能 够 及 时 进行 切换 。 


Driver 运 行 在 客户 端 ， 和 Driver 运 行 在 Worker 节 点 上 类 似 , 但 也 有 几 点 不 一 样 ， 会 在 后 面 进 一 步 说 明 。 
5.2.2 ”基于 YARN 模 式 的 Spark 架 构 


在 YARN 模 式 下 有 两 种 运行 方式 : Driver 运 行 在 集群 NodeManager 和 Driver 运 行 在 客户 端 。 图 5-6 给 出 了 基于 YARN 模 式 下 Spark 的 Driver 运 行 在 客户 端的 架构 。 


Client »esourceManager 


NodeManage NodeManage NodeManager 


Executor |) SparkAppMaster | Executor 


图 5-6 YARN 的 Spatk 架 构 
这 里 SparkAppMaster 相 当 于 Standalone 模 式 下 的 SchedulerBackend，Executor 相 当 于 Standalone 模 式 下 的 ExecutorBackend，SparkAppMaster 包 括 DAGScheduler 和 YARNCIusterScheduler。 
图 5-7 展 示 了 Spark on YARN 的 作业 执行 机 制 。 


基于 YARN 的 Spark 作 业 首 先 由 客户 端 生成 作业 信息 ， 提 交 给 ResourceManager，ResourceManager 在 基 一 NodeManagerC 报 时 把 AppMaster 分 配给 NodeManager，NodeManager 启 动 
SparkAppMaster，SparkAppMaster 启 动 后 初始 化 作业 ， 然 后 向 ResourceManager 申 请 资源 ， 申 请 到 相应 资源 后 SparkAppMaster 通 过 RPC 让 NodeManager 启 动 相 应 的 
SparkExecutor，SparkExecutor 向 SparkAppMaster 汇 报 并 完成 相应 的 任务 。 此 外 ，SparkClient 会 通过 AppMaster 获 取 作 业 运 行 状态 。 
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图 5-7 ”Spark on YARN 作 业 执 行 


5.2.3 “作业 事件 流 和 调度 分 析 


spark 任 务 处 理事 件 流 如 图 5-8 所 示 。 
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图 5-8 Spark X 4E iX, 


任务 提交 到 集群 ， 集 群 将 任务 分 配 到 具体 的 工作 节点 去 处 理 。 运 行 任 务 有 4 个 参数 : targetRDD、partitions、func 和 listeners。runJob 会 把 代码 提交 给 DAGScheduler，DAGSscheduler 将 代码 绘制 成 
DAG 图 ,而 根据 依赖 关系 又 将 DAG 图 划分 成 不 同 的 Stage， 对 应 多 个 TaskSet，TaskSet 交 给 TaskScheduler，TaskScheduler 与 资源 管理 器 进行 交互 ， 资 源 管理 再 根据 不 同 的 部 署 模式 与 集群 进行 交互 ， 当 
然 也 可 以 在 Local 级 别 进行 运行 。TaskScheduler 有 自己 的 事件 处 理 机 制 ，task finish 和 stage failure 都 是 事件 触发 的 。 


作业 处 理 的 调度 框架 如 图 5-9 所 示 。 


RDDObjects DAGScheduler TaskScheduler Worker 


Task threads 
TatkSet Cluster Manager T 
-一 一 和 
(l Block Manager 


^ 


rddl.join(rdd2) 


launch tasks via cluster 


groupBy(...) split graph into stages of tasks manager execute tasks 
filter(...) bmi h . á 
submit each stage as ready retry failed or store and serve blocks 
build operator DAG straggling tasks 
stage 


doesn't know about 
stages 


agnostic to operators 


图 5-9 ”调度 架构 图 


整个 调度 过 程 包 括 : 生成 RDD 对 象 、 构 建 DAGScheduler、 任 务 调度 、 作 业 执 行 等 几 个 部 分 。 


1) 生成 RDD 对 象 过程 中 ， 根 据 输 入 RDD 进 行 解析 ， 构 建 操作 DAG 图 (build operator DAG) 。 代 码 中 RDD 进 行 转换 (transformation) 操作 是 惰性 (lazy) 的 ， 转 换 操 作 只 会 产生 标记 ， 并 不 立即 执 
行 ， 只 有 遇 到 执行 (action) 操作 时 ， 执 行 操作 调用 runJob 方 法 ， 从 而 递交 至 DAGscheduler， 并 绘制 DAG 图 ， 程 序 才 会 真正 执行 。 


2) 构建 DAGScheduler 过 程 中 ， 根 据 DAG 图 划分 任务 阶段 (split graph into stages of tasks) ， 并 将 按照 阶段 (Stage) 提交 任务 集 (TaskSet) 。 


首先 将 整个 DAG 图 划分 成 一 个 完整 的 Stage (也 称 为 finalStage) ， 然 后 从 stage 中 的 最 后 一 个 RDD 起 往 前 回溯 。 在 回溯 过 程 中 ， 不 断 判 断 RDD 的 依赖 关系 ， 如 果 是 窒 依 赖 (narrow dependncy) 则 继 
续 回 滴 ， 如 果 是 宽 依 赖 (wide dependncy) 则 划分 出 一 个 新 的 Stage。 从 而 将 整个 DAG 图 划分 成 多 个 Stage， 每 个 Stage 有 一 组 Task 组 成 。 


如 果 满 足 ; localExecutionEnabled73E; allowLocal7JE; finalStage 没 有 父 Stage; Partition 数 目 为 1 这 四 个 条 件 ， 则 会 在 本 地 开启 Local 模 式 执行 任务 。 否 则 ， 采 取 集 群 模式 运行 任务 。 只 要 满足 该 
Stage 没 有 未 执行 完毕 的 父 Stage， 则 该 Stage 可 以 提交 任务 ， 并 将 任务 集 (TaskSet) 作为 Stage 的 参数 提交 。 


3) 任务 调度 过 程 中 ， 通 过 集群 管理 器 分 配 资 源 启动 具体 任务 (launch tasks via cluster manager) , 并重 试 失败 或 运行 较 慢 任 务 (retry failed or straggling tasks) 。 


DAGScheduler 递 交 给 TaskScheduler 的 是 TaskSet，SchedulerBackend 通 过 makeOffers 申 请 资源 ， 通 过 resourceOffers 调 度 资源 。 另 外 ，TaskScheduler 是 通过 TaskSetManager 来 管理 这 些 Task 
的 ， 当 满足 一 定 的 条 件 ， 包 括 调度 策略 (FIFO 和 FAIR) 以 及 延迟 调度 (数据 本 地 性 ) ， 则 会 将 LaunchTask 消 息 发 送 给 ExecutorBackend。 


当 有 任务 失败 或 者 Straggling Tasks 时 ， 在 TaskScheduler 层 面 会 重新 计算 这 些 Task， 只 有 超出 Task 的 范围 上 升 至 Stage 或 者 DAG 层 面 时 ， 才 会 交 由 DAGScheduler 进 行 处 理 。 任 务 失败 之 
后 ，Straggling Tasks 采 取 的 措施 是 开启 同样 的 一 个 节点 ， 并 对 这 个 节点 进行 计算 。 此 时 就 有 两 个 阶段 对 同一 个 任务 进行 计算 。Spark 采 取 的 措施 是 看 谁 计算 完 ， 就 要 谁 的 结果 。 


4) 作业 执行 过 程 中 ， 执 行 任务 (execute task) ， 人 存储 并 管理 数据 块 (store and server block) 。 


ExecutorBackend 在 接收 到 LaunchTask 消 息 后 ， 会 在 Executor 上 执行 LaunchTask 操 作 。LaunchTask 操 作 中 ， 会 生成 新 的 TaskRunner， 并 以 线程 池 的 方式 进行 执行 。 在 Task 执 行 时 ， 是 需要 区 分 
Task 是 ShuffleMapTask 还 是 ResultTask 的 ， 两 者 的 返回 也 不 一 样 。 


通过 BlockMananger 接 口 对 存储 进行 管理 ， 包 括 内 存 的 读 写 和 磁盘 的 读 写 。 其 中 ，Shuffle 的 中 间 结 果 是 需要 写 入 磁盘 的 。 


5.3 ”运行 时 环境 


spark 中 每 个 应 用 程序 都 维护 了 自己 的 一 套 运行 时 环境 ， 该 运行 时 环境 在 应 用 程序 开始 时 构建 ， 在 运行 结束 时 销毁 。 相 对 于 所 有 应 用 程序 共用 一 套 运 行 时 环境 的 方式 ， 极 大 地 缓解 了 应 用 程序 之 间 的 相 


Spark 的 运行 原理 如 图 5-10 所 示 。 

总 体 来 说 ， 一 个 Spark 运 行 时 环境 由 4 个 阶段 构成 。 
| 阶段 一 : 构建 应 用 程序 运行 时 环境 。 
* 阶段 二 : 将 应 用 程序 转换 成 DAG 图 。 
. 阶段 三 : 按照 依赖 关系 调度 执行 DAG 图 。 


| 阶段 四 : 销毁 应 用 程序 运行 时 环境 。 


Spark 应 用 程序 
Stage4 


DAGScheduler 


Task || Task Task || Task Task || Task 
[ Fxecutor 


Executor E 
BlockManager 


图 5-10 运行 原理 图 


5.3.1. 构建 应 用 程序 运行 时 环境 
个 运行 时 环境 ， 言 ， 存 在 两 种 运行 时 环境 构建 方式 : 粗 粒度 和 细 粒 度 。 
行 过 程 中 不 再 申请 新 资源 。 


为 了 运行 一 个 应 用 程序 ，Spark 首 先 根据 应 用 程序 资源 需求 构建 一 
运行 任务 之 前 ， 将 根据 应 用 程序 资源 需求 一 次 性 将 这 些 资源 资 齐 ， 之 后 使 用 这 些 资 源 运行 任 
便 开 始 运行 该 任务 ， 而 不 必 等 到 所 有 资源 全 部 到 位 。 目 前 ， 基 于 Hadoopb 的 MapReduce 就 是 基 


WER: 应 用 程序 被 提交 到 集群 之 后 ， 它 在 正 
E: 资源 ， 只 要 等 到 资源 满足 一 个 任务 的 运行 


动态 向 集群 管理 器 申请 
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CADRE: 应 用 程序 被 提交 到 集群 之 后 ， 动 态 
于 细 粒 度 运行 时 环境 构建 方式 。 

对 于 Spark on YARN， 目 前 仪 支持 粗 粒 度 构 建 方式 。 不 管 何 种 方式 ， 除 了 启动 任务 相关 的 组 件 外 ， 每 个 Executor 还 需要 启动 一 个 RDD 缓 存 管理 服务 BlockManager， 该 服务 采用 了 分 布 式 
MastervSslaves 架 构 ， 其 中 ， 主 控 节 点 上 启动 Master 服 务 BlockManagerMaster， 它 掌握 了 所 有 的 RDD 缓 存 位 置 ， 而 从 节点 则 启动 Slave 服 务 BlockManager， 供 客户 端 存 取 RDD 使 用 。 


5.3.2 ”应 用 程序 转换 成 DAG 


首先 ， 从 数据 混 洗 的 角度 考虑 ， 窄 依赖 的 RDD 可 以 通过 相同 的 键 进行 联合 分 多， 整个 操作 都 可 以 在 同一 个 集群 节点 上 以 流水 线 (pipeline) 形式 执行 。 例 如 ， 执 行 了 Map 后 ， 紧 接着 执行 Fiter， 不 会 造 


在 第 4 章 中 已 经 对 Spark 的 窄 依赖 (narrow dependency) 和 宽 依 赖 (wide dependency) 进行 了 详细 的 叙述 ，Spark 将 依赖 分 为 窄 依赖 与 宽 依赖 ， 基 于 以 下 两 点 原因 : 
能 还 需要 进行 跨 节点 传递 数据 。 


需要 所 有 的 父 分 区 都 是 可 用 的 ， 可 能 
只 需要 重新 计算 丢失 的 父 分 区 ， 而 且 可 以 并 行 地 在 不 同 节点 进行 重新 计算 。 而 宽 依 赖 涉及 RDD 各 级 的 多 个 父 分 区 (parent partitions) ， 可 


成 网 络 之 间 的 数据 混 洗 。 相 反 ， 宽 依赖 的 RDD 会 涉及 数据 混 洗 ， 


其 次 ， 从 失败 恢复 的 角度 考虑 ， 窒 依赖 的 失败 恢复 更 有 效 ， 
能 会 导致 全 部 重新 计算 。 
在 将 应 用 程序 转换 成 DAG 的 过 程 中 ，Spark 的 调度 程序 会 检查 依赖 关系 的 类 型 ， 根 据 RDD 依 赖 关 系 将 应 用 程序 划分 为 若干 个 Stage， 每 个 Stage 启动 一 定数 目的 任务 进行 并 行 处 理 。 
Spark 采 用 了 贪心 算法 划分 阶段 ， 即 如 果子 RDD 的 分 区 到 父 RDD 的 分 区 是 窄 依赖 ， 就 实施 经 典 的 Fusion (融合 ) 优化 ， 把 对 应 的 操作 划分 到 一 个 Stage， 如 果 连 续 的 变换 算 子 序列 都 是 窄 依赖 ， 就 可 以 


把 很 多 个 操作 并 到 一 个 Stage， 直 到 遇 到 一 个 宽 依 赖 。 这 不 但 减少 了 大 量 的 全 局 屏障 (barrier) ， 而 且 无 须 物化 很 多 中 间 结 果 RDD， 可 极 大 地 提升 性 能 ，Spark 把 这 个 称 为 流水 线 (pipeline) 。 


宽 依赖 在 一 个 执行 中 会 跨越 连续 的 Stage， 同 时 需要 显 式 指 定 多 个 子 RDD 的 分 区 
图 5-11 来 自 Matei Zaharia 撰 写 的 论文 An Architecture for Fast and General Data Processing on Large Clusters， 说 明了 窒 依 赖 与 宽 依 赖 之 间 的 Stage 划 分 。 
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图 5-11 Stage 划分 图 器 


图 5-11 中 ， 一 个 Box 代 表 一 个 RDD， 一 个 带 阴影 的 矩形 框 代 表 一 个 Partition ， 红 色 矩 形 框 代 表 Cached Partition, 


我 们 知道 ,一 个 Stage 的 边界 ， 输 入 是 外 部 存储 或 者 一 个 Stage shuffle 的 结果 ; 输出 则 是 Job 的 结果 (result task 对 应 的 stage) 或 者 shuffle 的 结果 。 图 5-11 中 Stage3 的 输入 则 是 RDD A 和 RDD F 
shuffle 的 结果 。 而 A 和 F 由 于 到 B 和 G 需 要 shuffle， 因 此 需要 划分 到 不 同 的 stage。 该 DAG 图 最 终 被 转化 为 三 个 Stage， 每 个 阶段 将 启动 多 个 任务 并 行 处 理 。 


DAGScheduler 将 Stage 划 分 完成 后 ， 提 交 实 际 上 是 通过 把 Stage 转 换 为 TaskSet， 然 后 通过 TaskScheduler 将 计算 任务 最 终 提交 到 集群 。 


5.3.3 ”调度 执行 DAG 图 


在 该 阶段 中 ，DAGScheduler 将 按照 依赖 关系 调度 执行 每 个 Stage: 优先 选择 那些 不 依赖 任何 阶段 的 Stage， 待 这 些 阶段 执行 完成 后 ， 再 调度 那些 需要 依赖 的 阶段 已 经 
样 一 直 调 度 下 去 ， 直 到 所 有 阶段 运行 完成 。 


:二 /二 


么 运行 完成 的 Stage。 依 次 进行 ， 这 
在 处 理 某 个 阶段 时 ，Spark 将 为 之 启动 一 定数 目的 Task 并 行 执 行 ， 为 了 提高 任务 的 执行 效率 ，Spark 借 鉴 MapReduce 中 的 优化 机 制 ， 包 括 数 据 本 地 性 和 推测 执行 


“ 数据 本 地 性 ， 是 指 对 任务 进行 调度 时 为 算 子 选择 数据 匹配 的 节点 ， 优 先 选择 数据 所 在 节点 ， 其 次 选择 数据 所 在 机 架 上 的 节点 ， 最 后 选择 其 他 机 架 上 的 节点 。 针 对 输入 数据 量 较 少时 本 地 性 变 差 的 情况 
采用 了 延迟 调度 (delay scheduling) 机 制 ， 即 当 不 存在 满足 本 地 性 的 资源 时 ， 暂 时 将 资源 分 配给 其 他 任务 ， 直 到 出 现 满足 本 地 性 的 资源 或 者 达到 设 定 的 最 大 时 间 延 迟 。 


“ 推测 执行 ， 当 检查 到 同类 任务 中 存在 明显 比较 慢 的 任务 时 ， 尝 试 为 这 些 比 较 慢 的 任务 启动 备份 任务 ， 并 将 最 先 完 成 任务 的 计算 结果 作为 最 终结 果 。DAG 的 推测 执行 开始 于 DAG 的 叶 节 点 ， 往 上 追溯 父 
RDD 需 要 的 依赖 性 ， 最 终 追 溯 到 源 节 点 。 


另外 ， 相 对 于 传统 的 MapReduce 计 算 框架 ，Executor 针 对 以 下 两 个 方面 进行 了 改进 : 


. 采取 多 线程 执行 具体 的 任务 ， 减 少 了 多 进程 任务 频繁 的 启动 开销 ， 使 任务 执行 变 得 非常 可 靠 和 高 效 。 


Executor 上 会 有 一 个 BlockManager 存 储 模 块 ， 类 似 于 KV 系统 (内 存 和 磁盘 共同 作为 存储 设备 ) ， 当 需要 多 轮 逻 代 时 ， 可 以 将 中 间 过 程 的 数据 先 放 到 这 个 存储 系统 上 ， 后 续 需 要 时 直接 读 取 该 存储 数据 ， 
而 不 需要 读 写 到 HDFS 等 相关 的 文件 系统 里 ; 或 者 在 交互 式 查 询 场景 下 ， 事 先 将 表 缓 存 到 该 存储 系统 上 ， 提 高 读 写 IO 性 能 


不 论 采 取 何 种 模式 的 部 署 和 经 过 多 少 次 转换 ， 典 型 的 DAG 执 行 流程 如 下 : 

1) RDD 直 接 从 外 部 数据 源 (HDFS、 本 地 文件 等 ) 创建 。 

2) RDD 经 历 一 系列 的 Transformation (Map, flatMap, Filter, groupBy, Join) ， 每 一 次 都 会 产生 不 同 的 RDD， 供 给 下 一 个 Transformation 使 用 。 
3) 当 触 发 Action (Count, Collect, Save, Take) 时 ， 将 最 后 一 个 RDD 进 行 转 换 ， 输 出 到 外 部 数据 源 。 


上 述 一 系列 处 理 过 程 称 为 一 个 血统 (lineage) ， 即 DAG 拓 扑 排序 的 结果 。 在 Lineage 中 人 生成 的 每 个 RDD 都 是 不 可 变 的。 事实 上 ， 除 非 被 缓存 ， 每 个 RDD 在 进入 下 一 个 Transformation 操 作 之 前 都 只 使 


用 一 次 。 
5-12 以 人 类 进化 的 方式 显示 了 基于 RDD 的 血统 进化 图 。 
进化 过 程 作 为 每 个 RDD 之 间 — a E Be 
f 作 


每 一 个 


S | 


( m - \ 


EN, 


图 5-12 t RRA 


如 果 按 照 MapReduce， 流 程 中 任何 一 个 步骤 出 了 问题 ， 都 会 重新 计算 ， 但 是 在 Spark 中 ， 由 于 有 血统 Lineage 的 存在 ， 可 以 采取 中 间 持 久 化 的 方式 进行 容错 处 理 ， 避 免 全 部 重新 计算 。 


执行 DAG 的 过 程 如 下 : 首先 应 用 程序 创建 SparkContext 的 实例 ， 如 实例 为 Sc， 这 是 应 用 程序 与 集群 交互 的 唯一 通道 ;其 次 ,利用 SparkContext 的 实例 创建 生成 RDD， 经 过 一 连 串 的 Transformation 操 


任务 执行 完毕 ， 将 销毁 运行 时 环境 ， 释 放 应 用 程序 占用 的 资源 ， 归 还 给 集群 ， 以 供 其 他 程序 使 用 。 


[1] 本 书 为 单 色 印 刷 ， 深 色 的 矩形 框 为 Cached Partition, 编辑 注 


5.4 ”应 用 程序 运行 实例 


如 图 5-13 所 示 ， 以 从 日 志 中 找 出 标 有 “error” 的 记录 为 例 ， 说 明 Spark 的 运行 原理 。 
第 一 步 ， 根 据 代码 和 集群 交互 ， 申 请 资源 ， 初 始 化 运行 时 环境 。 
第 二 步 ， 将 应 用 程序 转换 成 DAG 图 。 


将 应 用 程序 转换 成 DAG 图 ， 实 质 上 是 通过 Spark 的 操作 函数 来 标记 各 种 RDD， 关 联 各 种 RDD 之 间 的 依赖 关系 构成 DAG 图 ， 并 划分 成 不 同 的 stage。 如 图 5-13 所 示 ，textFile、Filter、Map 都 属于 
Transformation 操 作 ， 并 不 立即 执行 ， 而 是 处 于 延迟 操作 状态 ;Cache 也 是 惰性 (lazy) 执行 的 ， 只 有 当 Cache 过 的 数据 做 Action 操 作 时 ， 才 会 将 Cache 的 RDD 缓 存 起 来 ， 供 后 续 和 欠 代 使 用 。 


第 三 步 ， 按 照 依 赖 天 系 调度 执行 DAG 图 。 
从 HDFS 文 件 中 记录 读 取 log (日 志 ) 的 信息 ， 产 生 MappedRDD; 经 过 Filter 过 滤 函 数 ， 结 果 产 生 FilteredRDD; 使 用 Map 执 行 分 词 取 第 一 列 的 函数 ， 返 回 新 的 MappedRDD; 最 后 将 其 Cache 在 内 存 。 


最 后 ， 执 行 完毕 ， 销 毁 应 用 程序 运行 时 环境 ， 释 放 资 源 。 


Ex:errors-textFile("log").filter(. contaimns( error )) 


mapl( .split( t^ )(1)) 
.cache() 


HdfsFile | 1  FilteredFile [|* —. |  MappedFile 


path:hdfs:// func:contains(...) func:split(...) CachedFile 


图 5-13 日 志 处 理 流程 


5.5 本章 小 结 


本 章 主要 讲解 Spark 的 工作 原理 ， 以 及 Spark 运 行 时 环境 、 转 换 DAG、 执 行 DAG、 销 毁 PDAG ， 并 以 从 日 志 中 找 出 标 有 “error” 的 记录 为 例 说 明 整 个 应 用 程序 的 运行 过 程 。 为 后 面 学 习 Spark 开 发 打下 的 
基础 。 


第 6 章 Spark SQL 与 DataFrame 


信 言 不 美 ， 美 言 不 信 。 
一 一 《道德 经 》 第 八 十 一 章 
实在 的 话 不 动听 ， 动听 的 话 不 实在 ， 虽 然 未 必 尽 然 ， 但 是 这 种 情况 是 极其 普遍 的 ; 信 而 美 一 直 是 我 们 追求 的 目标 。 


Spark 一 栈 式 解 决 方案 中 ， 最 常用 、 最 简单 、 信 而 美的 部 分 就 是 Spark SQL; 无 论 你 是 技术 大 神 ， 还 是 “小 鲜 肉 ”; 学 习 和 研究 Spark， 都 应 该 从 接触 Spark SQL 开 始 ， 一 起 把 Spark SQL 当成 征服 大 数 
据 必 须 超越 的 目标 。 


本 章 重点 讲解 Spark SQL 概述 ， 包 括 发 展 、 架 构 、 特 点 、 性 能 等 一 系列 知识 ; 以 及 Spark SQL 的 DataFrame 编 程 抽象 ， 从 DataFrame 与 RDD 的 区 别 , 创建 DataFrame，DataFrame 操 作 ， 以 及 RDD 转 
化 成 DataFrame 几 个 方面 进行 了 说 明 ; 随后 对 DataFrame 的 数据 源 ， 从 结构 化 数据 (Parquet 文 件 、JSON 文 件 ) 、Hive 表 ， 以 及 通过 JDBC 连 接 外 部 数据 源 进行 了 归纳 ， 最 后 补充 了 分 布 式 SQL Engine 和 
性 能 调 优 的 知识 。 


6.1 概述 


Spark SQL 是 spark 的 一 个 结构 化 数据 处 理 模 块 ， 提 供 一 个 DataFrame 编 程 抽 象 ， 可 以 看 做 是 一 个 分 布 式 SQL 碍 询 引擎。Spark SQL 主要 由 Catalyst 优 化 、Spark SQL 内 核 、Hive 支 持 三 部 分 组 成 。 


Catalyst[] 优 化 处 理 查询 语句 的 整个 过 程 ， 包 括 解析 、 绑 定 、 优 化 、 物 理 计 划 等 ， 主 要 由 关系 代数 (relation algebra) 、 表 达 式 (expression) 以 及 查询 优化 (query optimization) 组 成 。 


Spark SQL 内 核 处 理 数据 的 输入 输出 ， 从 不 同 的 数据 源 (结构 化 数据 Parquet 文 件 和 JSON 文 件 、Hive 表 、 外 部 数据 库 、 现 有 的 RDD) 获取 数据 ， 执 行 查询 (execution of queries) ， 并 将 查询 结果 输 
出 成 DataFrame。 


Hive 支 持 是 指 对 Hive 数 据 的 处 理 ， 主 要 包括 HiveQL、MetaStore、SerDes、UDFS 等 。 


6.1.1 Spark SQL 发 展 


说 到 Spark SQL 的 发 展 ， 要 从 大 数据 发 展 过 程 谈 起 ， 大 数据 的 发 展 到 目前 为 止 ， 经 历 了 离线 计算 、 准 实时 计算 、 实 时 计算 三 个 阶段 。 


1) 离线 计算 阶段 ， 在 大 数据 发 展 初期 ， 通 过 MapReduce 模 型 编写 程序 直接 进行 数据 查询 ， 解 决 了 海量 数据 处 理 问题 ， 编 程 模 型 比较 简单 ， 可 以 和 Java 无 颖 对 接 ， 同 时 通过 Streaming 支 持 C++ 等 多 语 
言 编程 ， 产 生 了 划时代 的 影响 ;， 随 着 数据 量 的 增加 和 对 实时 性 的 要 求 ， 基 于 离线 数据 计算 的 输入 输出 受到 磁盘 I/O 和 网 络 速 度 的 限制 ， 效 率 成 为 离散 计算 的 瓶颈 。 


2) 准 实时 计算 阶段 ， 为 了 提升 编程 和 查询 效率 ， 发 展 了 Hive 数 据 仓 库 。Hive 数 据 仓库 基于 HDFS 存 储 构 建 ， 并 人 允许 使 用 类 似 于 SQL 的 语法 HiveQL 进 行 数据 查询 ， 简 化 了 MapReduce 编 程 ， 在 一 定 程度 
上 提升 了 效率 ,但 是 并 没有 彻底 解决 效率 问题 。Hive 的 局 限 性 ， 促 进 了 Shark 的 产生 。 为 了 进一步 提升 效率 ， 伯 克利 实验 室 使 用 Shark 对 Hive 进 行 了 改造 ， 奉 换 了 Hive 的 物理 引擎 ， 速 度 得 到 提升 。Shark 是 
spark 生 态 环境 的 组 件 之 一 ， 它 修改 了 内 存 管理 、 物 理 计划 、 执 行 三 个 模块 ， 并 使 之 能 运行 在 spark 引 警 上 ， 使 SQL 查询 的 速度 得 到 10~ 100 倍 的 提升 。 然 而 不 容 忽 视 的 是 ，shark 集 成 了 大 量 的 Hive 代 码 ， 给 


优化 和 维护 带 来 了 很 多 麻烦 。shark 对 于 Hive 的 太 多 依赖 (如 采用 Hive 的 语法 解析 器 、 查 询 优化 器 等 ) 制约 了 Spark 各 个 组 件 的 相互 集成 。 随 着 性 能 优化 和 分 析 整 合 的 进一步 加 深 ， 基 于 MapReduce 设 计 的 
部 分 无 疑 成 为 实时 计算 的 瓶颈 。 


3) 实时 计算 阶段 ， 为 了 更 好 地 发 展 ， 给 用 户 提供 更 好 的 体验 ，Spark SQL 抛弃 原 有 Shark 的 代码 ， 汲 取 了 Shark 的 优点 ， 重 新 进行 了 开发 ; Spark SQL 直接 基于 Spark 架 构 进行 实现 ， 效 率 比 Shark 有 所 
提升 。Spark SQL 作为 新 的 SQL 引擎， 基于 Catalyst 的 优化 引 警 可 以 直接 对 Spark 内 核 进 行 优化 处 理 。Spark SQL 整 合 各 种 数据 源 ， 包 括 Parquet、JSON、NoSQL 数 据 库 和 传统 关系 型 数据 库 ， 程 序 在 内 存 
中 的 运行 速度 是 Hadoop MapReduce 程 序 在 磁盘 上 运行 速度 的 100 倍 。 


6.1.2. Spark SQL 架构 


Spark SQL 对 SQL 语句 的 处 理 和 关系 型 数据 库 SQL 处 理 类 似 ， 将 SQL 语句 解析 成 一 棵 树 (tree) ， 然 后 通过 规则 (rule) 的 模式 匹配 ， 对 树 进行 绑 定 、 优 化 等 ， 得 到 查询 结果 。 


Tree 的 具体 操作 是 通过 TreeNode 实 现 的 ; Rule 是 一 个 抽象 类 ， 是 通过 RuleExecutor 完 成 的 ， 应 用 于 Spark SQL 的 Analyzer、Optimizer、Spark Planner 等 组 件 中 ， 可 以 简便 、 模 块 化 地 对 Tree 进行 


Transform 操 作 。 


在 整个 SQL 语句 处 理 过 程 中 ，Spark SQL 主要 依赖 了 Catalyst 这 个 新 的 查询 优化 框架 ， 把 SQL 解析 成 逻辑 计划 之 后 ，Tree 和 Rule 相 互 配合 ， 利 用 Catalyst 包 里 的 一 些 类 和 接口 ， 完 成 了 解析 
(Analysis) 、 绑 定 、 优 化 等 过 程 ， 最 终生 成 可 以 执行 的 物理 计划 ， 最 后 变 成 DataFrame 的 计算 。 


Spark SQL 的 执行 过 程 如 图 6-1 所 示 ， 其 中 树 节 点 (TreeNodes) 是 指 Scala Case 类 的 变换 树 (transforming trees) ; SQL 解析 器 (SQL parser) 完成 SQL 语句 的 语法 解析 功能 ， 将 SQL 语句 解析 成 一 
棵 Unresolved 逻 辑 计划 树 ; 规则 (rules) 针对 树 进 行 分 析 、 优 化 。 
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图 6-1 Spark SQL 执行 流程 


在 Spark SQL 的 运行 架构 中 ， 逻 辑 计划 (logical plan) 贯穿 了 大 部 分 过 程 ， 其 中 ，Catalyst 的 SqlParser、Analyzer、Optimizer 都 要 对 逻辑 计划 进行 操作 ; 最 终 形成 可 执行 的 物理 计划 (physical 
plan) 。 


sqlContext 是 使 用 sqlContext.sql (sglText) 提交 用 户 的 查询 语句 ， 调 用 DataFrame (this，parseSql (sqlText) ) 对 SQL 语句 进行 处 理 ， 执 行 流程 如 下 : 

1) 使 用 SqlParser 对 SQL 语句 进行 解析 ， 生 成 Unresolved 逻 辑 计 划 (没有 提取 Schema 信息 ) ; 

2) 使 用 Catalyst 分 析 器 ， 结 合 数据 字典 (catalog) 进行 绑 定 ， 生 成 Analyzed 逻 辑 计划 ， 在 此 过 程 中 ，Schema Catalog 则 要 提取 Schema 信息 ; 

3) 使 用 Catalyst 优 化 器 对 Analyzed 逻 辑 计 划 进 行 优 化 ， 按 照 优化 规则 得 到 Optimized 逻 辑 计 划 。 

4) 接 下 来 需要 和 Spark Planner 进 行 交 互 ， 使 用 策略 (strategy) 到 plan， 使 用 Spark Planner 将 逻辑 计划 转换 成 物理 计划 ， 然 后 调 取 next 函 数 ， 生 成 可 执行 物理 计划 。 


5) 调用 toDF， 最 后 生成 DataFrame。 


6.1.3 Spark SQL 特点 


Spark 具 有 如 下 特点 : 


. 数据 兼容 方面 : 不 但 兼容 Hive， 还 可 以 从 RDD、Parquet 文 件 、JSON 文 件 中 获取 数据 。 可 以 在 Scala 代 码 里 访问 Hive 元 数据 ， 执 行 Hive 语 句 ， 并 且 把 结果 取 回 作为 RDD 使 用 。 支 持 Parquet 文 件 的 读 写 ， 且 


保留 Schema。 


- 组 件 扩 展 方面 : 无 论 是 SQL 的 语法 解析 器 、 分 析 器 ， 还 是 优化 器 都 可 以 重新 定义 ， 进 行 扩展 。 


* 性 能 优化 方面 : 除了 采取 内 存 列 存储 、 动 态 字 节 码 生 成 等 优化 技术 ， 还 采取 了 内 存 缓存 数据 。 


- 支持 多 种 语言 : 包括 Scala、Java、Python、R 等 ， 可 以 在 Scala 代 码 里 写 SQL， 支 持 简 单 的 SQL 语法 检查 ， 能 把 RDD 转 化 为 DataFtame 存 储 起 来 。 


6.1.4 Spark SQL 性 能 


Spark SQL 兼容 了 Hive 的 大 部 分 语法 和 UDF， 在 处 理 查询 计划 时 ， 使 用 了 Catalyst 框 架 进行 优化 ， 优 化 成 适合 Spark 编 程 模型 的 执行 计划 ， 其 效率 比 Hive 高 出 很 多 。 
主要 体现 在 : 
1) 内 存 列 式 存储 。 


Spark SQL 使 用 内 存 列 式 模式 (in-memory columnar format) 缓存 表 ， 仪 扫描 需要 的 列 ， 并 且 自 动 调 整 压缩 比 使 内 存 使 用 率 和 GC 压力 最 小 化 ， 如 果 缓 存 了 数据 ， 则 再 次 执行 时 不 需要 重复 读 取 数 
据 。 


2) 动态 代码 生成 和 字 节 码 生 成 技术 ， 提 升 了 复杂 表达 式 求 值 查询 的 速率 。 


如 下 查询 : 


SELECT a + b FROM table 


在 这 个 查询 语句 中 ， 传 统 的 处 理 方 式 ， 会 生成 一 个 表达 式 树 ， 需 要 调用 虚 函 数 确认 Add 两 边 的 数据 类 型 ， 然 后 分 别 调用 虚 函 数 确认 a 和 b 的 数据 类 型 ， 并 装 箱 ， 最 后 调用 指定 数据 类 型 的 Add， 返 回 装 箱 
后 的 计算 结果 。 计 算 时 多 次 涉及 虚 函 数 的 调用 ， 虚 函数 的 调用 会 打 断 CPU 的 正常 流水 线 处 理 ， 减 缓 执 行 速度 。 


Add 


Attributea Attributeb 


作为 Spark SQL 优化 的 一 部 分 ， 已 经 实现 了 新 的 表达 式 计算 ， 增 加 了 codegen 模 块 ，spark SQL 在 执行 物理 计划 时 ， 会 对 匹配 的 表达 式 采 用 特定 的 代码 动态 编译 ， 能 够 为 每 个 查询 动态 生成 自 定义 字 节 
码 ， 然 后 运行 。 


内 存 列 式 存储 和 动态 代码 生成 仅仅 是 水 山 一 角 ， 存 储 方面 还 有 很 多 需要 提升 ,包括 : 改进 的 Parquet 集 成 ， 自 动 查询 半 结 构 化 数据 (如 JSON) ， 通 过 JDBC 访 问 Spark SQL 等 。 针 对 Scala 代 码 优化 ， 当 
Java 庶 拟 机 (VM) 发 现 内 存 资源 紧张 时 ， 就 会 自动 地 清理 无 用 对 象 (没有 被 引用 到 的 对 象 ) 所 占用 的 内 存 空间 。 在 执行 过 程 中 ， 支 持 多 种 数据 源 ， 统 一 转化 为 DataFrames 进 行 操作 等 。 


[1] Catalyst Æ 与 Spatk 解 耦 的 一 个 独立 库 ， 是 一 个 impl-ftee 的 执行 计划 生成 和 优化 框架 。 


6.2 DataFrame 
相对 于 传统 的 MapReduce API，Spark 的 RDD API 有 了 数量 级 的 飞跃 。 一 方面 ， 对 于 没有 MapReduce 和 函数 式 编程 经 验 的 新 人 来 说 ，RDD API 仍 然 存在 着 一 定 的 门槛 。 另 一 方面 ， 数 据 科学 家 所 熟悉 
的 R 等 传统 数据 框架 虽然 提供 了 直观 的 APl， 却 局 限于 单机 处 理 ， 无 法 胜任 大 数据 场景 。 为 了 解决 这 一 矛盾 ，Spark SQL 1.3.0 开 始 ， 在 原 有 SchemaRDD 的 基础 上 提供 了 与 R 风 格 类 似 的 DataFrame API, 


DataFrame 是 以 指定 列 (named columns) 组 织 的 分 布 式 数据 集合 ， 在 Spark SQL 中 ， 相 当 于 关系 数据 库 的 一 个 表 ， 或 R/Python 的 一 个 data frame。DataFrame 支 持 多 种 数据 源 构 建 ， 包 括 : 结构 
化 数据 文件 (Parquet, JSON) 加 载 、Hive 表 读 取 、 外 部 数据 库 读 取 、 现 有 RDDs 转 化 ， 以 及 通过 SQLContext 运 行 SQL 查 询 结 果 。 如 图 6-2 所 示 。 


DataFrame 


图 6-2 ”DataFrame 数 据 来 源 


新 的 DataFrame API 不 仅 大 幅度 降低 了 开发 者 的 学 习 门 槛 ， 同 时 支持 Scala、Java、Python 和 R 语 言 ， 且 支持 通过 spark-shell、pyspark shell 和 SparkR shell 提 交 任 务 。DataFrame 来 源 于 
SchemaRDD， 因 此 天 然 适用 于 分 布 式 大 数据 场景 。 


6.2.1 DataFrame 和 RDD 的 区 别 


在 Spark 中 ，DataFrame 是 一 种 以 RDD 为 基础 的 分 布 式 数据 集 ， 类 似 于 传统 数据 库 中 的 二 维 表格 ，DataFrame 带 有 Schema 元 信息 ， 即 DataFrame 所 表示 的 二 维 表 数据 集 的 每 一 列 都 带 有 名 称 和 类 型 ， 
如 图 6-3 所 示 。 


Person 
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图 6-3 ”DataFrame 和 RDD 的 区 别 


这 使 得 Spark SQL 得 以 洞察 更 多 的 结构 信息 ， 从 而 对 藏 于 DataFrame 背 后 的 数据 源 以 及 作用 于 DataFrame 之 上 的 变换 进行 了 针对 性 的 优化 ， 最 终 达到 大 幅度 提升 运行 时 效率 的 目标 。 而 RDD， 由 于 无 从 
得 知 所 存 数据 元 素 的 具体 内 部 结构 ，Spark Core 只 能 在 Stage 层面 进行 简单 、 通 用 的 流水 线 优化 。 


正如 RDD 的 各 种 变换 实际 上 只 是 在 构造 RDD DAG，DataFrame 的 各 种 变换 同样 也 是 惰性 的 。 它 们 并 不 直接 求 出 计算 结果 ， 而 是 将 各 种 变换 组 装 成 与 RDD DAG 类 似 的 逻辑 查询 计划 ， 经 过 优化 的 逻辑 执 
行 计划 被 翻译 为 物理 执行 计划 ， 并 最 终 落实 为 RDD DAG, 
6.2.2 创建 DataFrame 


在 Spark 中 ， 进 入 所 有 关系 功能 的 入 口 是 SQLContext 类 ， 或 是 它 的 一 个 衍生 类 。 要 创建 一 个 基本 的 SQLContext， 首 先 需要 一 个 SparkContext， 然 后 通过 该 SparkContext 实 例 化 一 个 SQLContext。 


1. 示 例 数据 
下 面 的 示例 程序 ， 在 安装 目录 的 examplesN\src\mainNresources\ 目 录 下 ， 参 考 people.txt 和 people.json 文 件 ， 如 下 所 示 。 
打开 people.txt 文 件 可 以 发 现 ， 里 面 放置 的 是 一 行 一 行 的 数据 ， 每 行 数据 的 组 成 方式 是 字符 串 、 逗 号、 整数 。 


Michael, 29 
Andy, 30 
Justin, 19 


打开 peoplejson 文 件 可 以 发 现 ， 里 面 放置 的 是 一 个 有 键 值 对 (key: value) 组 成 的 JSON 字 符 串 ， 字 符 串 和 字符 串 之 间 被 逗号 隔 开 。 


("name":"Michael"] 
{ "name" : "Andy" ; "age" : 30 } 
("name":"Justin", "age":19} 


2. 创 建 DataFrame 


使 用 sqlIContext.read 函 数 从 JSON 文 件 中 创建 一 个 DataFrame， 并 通过 Show (DataFrame 的 Action 操 作 ) 显示 数据 。 


val sc: SparkContext // spark-she11 默 认 SparkContext 

scala» val sqlContext = new org.apache.spark.sql.SQLContext (sc) 
// 创建 DataFrame， 变 量 SSparkHome 指 Spark 的 安装 目录 

Scala» val df = sqlContext.read.json 

("file:// S$SparkHome/examples/src/main/resources/people.json") 
// Displays the content of the DataFrame to stdout 

scala» df.show() 


age name 


null|Michael 
30 Andy 
19| Justin 


3. 常 见 操作 


^4— 


以 树 的 形式 打印 DataFrame 的 Schema (基础 DataFrame 操 作 ) ， 转 换 DataFrame 为 临时 表 ， 支 持 SQL 操 作 ， 但 此 时 是 不 进行 操作 的 ， 只 有 在 遇 到 Action 操 作 ， 如 Collect、Count、Show 等 ， 才 进行 
执行 。 


// 以 树 的 形式 打印 DataFrame 的 Schema 
Scala» df.printSchema () 
root 
|-- age: long (nullable = true) 
|-- name: string (nullable = true) 
// Select everybody, but increment the age by 1 
scala» df.select (df ("name"),df("age") + 1) .Show () 


Michael nu] 
Andy 31 
Justin 20 


// Select people older than 21 
scala» df.filter(df("age") > 21) .Show () 


scala> df.groupBy ("age") .count () .Show () 
pe + aa L 


6.2.3 DataFrame 操 作 
DataFrame 操 作 分 为 Action、 基 础 DataFrame 函 数 (basic DataFrame functions) 、 集 成 语言 查询 (language Integrated queries) 、Output 操 作 、RDD 操 作 和 Ungrouped 等 几 类 ， 有 具体 可 参考 
org.apache.spark.sgl.DataFrameBSAPI, 


在 1.4 版 本 中 提供 UnsafeShuffleManager 等 少数 功能 ， 在 1.5 版 本 中 使 用 code generation 和 cache-aware 算 法 对 Join、Aggregation、Shuffle、sorting 进 行 了 增强 。 在 DataFrame API 方 面 ， 实 现 了 
新 的 聚合 函数 接口 AggregateFunction 2 以 及 7 个 相应 的 build-in 的 聚合 函数 ， 同 时 基于 新 接口 实现 了 相应 的 UDAF 接 口 。 新 的 聚合 函数 接口 把 一 个 聚合 国 数 拆 解 为 三 个 动作 : initialize/update/merge, 25 
后 用 户 只 需要 定义 其 中 的 逻辑 就 可 以 实现 不 同 的 聚合 函数 功能 。 


Spark 内 置 的 expression 函 数 得 到 了 很 大 的 增强 ， 实 现 了 100 多 个 这 样 的 常用 函数 ， 如 string、math、unix timestamp, from unixtime, to date 等 。 同 时 ， 处 理 NaN 值 的 一 些 特性 也 在 增强 ， 如 
NaN=Nan 返 回 true; NaN 大 于 任何 其 他 值 等 约定 都 越 来 越 符合 SQL 界 的 规则 。 


用 户 可 以 在 执行 Join 操 作 时 指定 把 左边 的 表 或 者 右边 的 表 broadcast 出 去 ， 因 为 基于 cardinality 估 计 并 不 是 每 次 都 很 准 ， 如 果 用 户 了 解数 据 可 以 直接 指定 哪个 表 更 小 从 而 被 broadcast 出 去 。 
1.DataFrameAction 


常用 的 DataFrame 的 Action 操 作 包 括 collect、count、first、head、show、take 等 ， 如 表 6-1 所 示 。 


46-1 DataFrameAction 操 作 


Action 操作 说 ë B 


collect(): Array[Row] LJ. Array 形式 返回 DataFrame 的 所 有 Rows 
count(): Long 返回 DataFrame 的 Rows 数目 
( £x ) 


Action 操作 说 —— BR 


first): Row 返回 第 一 行 数据 

head(: Row 返回 第 一 行 数据 

show(): Unit 以 表格 形式 显示 DataFrame 的 前 20 行 数据 
take(n: Int): Array[Row | 退回 DataFrame pij tj N £724 


2. 基 础 DataFrame 函 数 


基础 DataFrame 函 数 包括 cache、columns、dtypes、explain、persist 等 ， 表 6-2 列 出 了 一 些 常用 的 示例 函数 。 


表 6-2 X shDataFrame ifj 4 


基础 函数 说 HH 
cache: DataFrame.this.type ?X ff DataFrame 
columns: Array[String] LJ, Array 形式 返回 全 部 的 列 包 
dtypes: Array[(String, String)] 以 Array 形式 返回 全 部 的 列 名 和 数据 类 型 
explain(): Unit 打印 physical plan 到 控制 台 
isLocal: Boolean 返回 collect 和 take 是 否 可 以 本 地 运行 
persist(newLevel: StorageLevel): DataFrame.this.type 根据 StorageLevel 持久 化 
printSchema(): Unit 以 树 格 式 打 印 Schema 
registerTempTable(tableName: String): Unit 使 用 给 定 的 名 宇 注 册 DataFrame 为 临时 表 
schema: StructType 返回 DataFrame 的 Schema 
toDF(colNames: String*): DataFrame 返回 一 个 重新 指定 columns 的 DataFrame 


去 除 持久 化 


unpersist(): DataFrame.this.type 


3. 集 成 语言 查询 
集成 语言 查询 ， 参 考 SQL 语 句 ， 如 distinct、filter、groupBy、select、sort、where 等 ， 表 6-3 列 出 了 一 些 数 常用 的 示例 查询 语句 。 


表 6-3 集成 语言 查询 


基础 函数 说 明 
agg(expr: Column, exprs: Column*): DataFrame 在 整体 DataFrame 不 分 组 聚合 
apply(colName: String): Column 基于 列 名 选择 列 ， 并 以 一 个 Column 的 形式 返回 
as(alias: Symbol): DataFrame 以 一 个 别名 集 的 方式 返回 一 个 新 DataFrame 
col(colName: String): Column 基于 列 名 选择 列 ， 并 以 一 个 Column 的 形式 返回 


给 当前 DataFrame 创建 一 个 多 维 数据 集 ， 使 用 专门 的 


cube(coll: String, cols: String*): GroupedData ; Se as SEDES 
列 ， 以 便 能 够 进行 聚合 


distinct: DataFrame 返回 一 个 新 DataFrame, [46215 DataFrame 的 unique rows 
drop(col: Column): DataFrame drop 一 个 列 ， 并 返回 一 个 新 DataFrame 
(BE) 
基础 函数 说 明 
except(other: DataFrame): DataFrame 返回 一 个 新 DataFrame， 在 当前 Frame 但 是 不 在 为 外 一 
~ Frame 

filter(conditionExpr: String): DataFrame 使 用 给 和 定 的 SQL 表达 式 过 滤 

groupBy(coll: String. cols: String*): GroupedData 使 用 给 年 的 列 分 组 DataFrame， 以 悍 能 够 进行 聚合 操 必 

intersect(other: DataFrame): DataFrame iR [n] "4 fif Frame 和 为 — Frame 的 交集 DataFrame 

limit(n: Int): DataFrame A Bug m JL. 3RIn]—-71- 39r DataFrame 

orderBy(sortExprs: Column*): DataFrame EHH ERIKA THET., iRIBI—^71-39rc DataFrame 
I Boolean, fraction: Double): RI 种 子 ， 抽 样 一 部 分 行 返回 一 个 新 DataFrame 

select(col: String, cols: String*): DataFrame 选择 一 个 列 集 合 

sort(sortExprs: Column*): DataFrame 返回 一 个 给 定 表 达 式 排 夺 的 新 DataFrame 

where(condition: Column): DataFrame 使 用 给 定 表 达 式 过 滤 行 


4. 输 出 操作 和 RDD 操 作 


DataFrame 采 用 write 保 存 DataFrame 内 容 到 外 部 存储 。 


DataFrame 本 质 上 是 一 个 拥有 多 个 分 区 的 RDD， 支 持 一 些 RDD 操 作 ， 包 括 : coalesce, flatMap, foreach, foreachPartition, javaRDD, map, mapPartitions, repartition, toJSON, 
toJavaRDD 等 。 


5.DataFrame 执 行 后 端 优化 


DataFrame 可 以 说 是 整个 Spark 项 目 最 核心 的 部 分 ， 在 1.5 版 本 这 个 开发 周期 内 最 大 的 变化 就 是 Tungsten 项 目的 第 一 阶段 已 经 完成 。 主 要 的 变化 是 由 Spark 自 己 来 管理 内 存 而 不 是 使 用 JVM ， 这 样 可 以 避 
免 JVM GC 带 来 的 性 能 损失 。 内 存 中 的 Java 对 象 被 存储 成 Spark 自 己 的 二 进 制 格式 ， 计 算 直接 发 生 在 二 进 制 格式 上 ， 省 去 了 序列 化 和 反 序 列 化 时 间 。 同 时 这 种 格式 也 更 加 紧凑 ， 节 省 内 存 空间 ， 而 且 能 更 好 地 
估计 数据 量 大 小 和 内 存 使 用 情况 。 


如 果 想 自己 测试 Tungsten 第 一 阶段 的 性 能 ， 在 1.5 版 本 中 spark.sql.tungsten.enabled 默 认为 true， 只 需要 修改 这 一 个 参数 就 可 以 配置 是 否 开启 Tungsten 优 化 (默认 是 开启 的 ) 。 


6.2.4 RDD 转 化 为 DataFrame 


Spark SQL 支 持 两 种 不 同 的 方法 将 现 有 的 RDD 转 化 为 DataFrame。 


第 一 种 方法 使 用 反射 机 制 来 推断 一 个 包含 特定 类 型 对 象 的 RDD 模 式 (schema) ， 如 果 提 前 知道 Spark 应 用 程序 的 Schema， 基 于 这 种 反射 方式 让 代码 变 得 更 简洁 。Spark SQL 反射 机 制 的 核心 思想 是 通 
过 支持 特定 的 RDD 自 动 转换 为 DataFrame。 


第 二 种 方法 是 通过 一 个 编程 接口 ， 人 允许 构建 一 个 Schema， 然 后 应 用 到 现 有 的 RDD， 这 种 基于 编程 接口 的 方法 ， 人 允许 在 运行 之 前 ， 列 名 及 列 类 型 未 知 时 构建 DataFrame。 
1. 以 反射 机 制 推断 RDD 模 式 


Spark SQL 的 Scala 接 口 支持 自动 转换 一 个 包含 case 类 的 RDD 为 一 个 DataFrame。case 类 定义 了 表 的 Schema， 使 用 反射 读 取 case 类 的 参数 名 为 列 名 ，case 类 也 可 以 是 赃 套 的 或 包含 复杂 类 型 ， 如 序列 
或 数组 。RDD 可 以 隐 式 转换 成 一 个 DataFrame， 并 注册 成 一 个 表 ， 表 可 以 用 于 后 续 的 SQL 查询 语句 。 


SQLContext 的 sq 函数 使 应 用 程序 运行 SQL 查询 并 返回 结果 DataFrame， 只 有 存在 case 类 时 ， 会 自动 发 生 隐 式 转换 ，map 操 作 的 结果 才能 变 成 一 个 DataFrame， 转 换 过 程 有 三 个 重点 : 
: 必须 创建 case 类 ， 只 有 case 类 才能 隐 式 转换 为 DataFrame。 
: 必须 生成 DataFrame， 进 行 注 册 临 时 表 操 作 。 


. 必须 在 内 存 中 tegistet 成 临时 表 ， 才 能 供 查 询 使 用 。 


// 通过 SparkContext 创 建 SqlContext， 并 进行 实例 化 

val sqlContext = new org.apache.spark.sql.SQLContext (sc) 
// 将 一 个 RDD 隐 式 转换 为 一 个 DataFrame 

import sqlContext.implicits. | 
// 4&JlcaseX X Schema (不 能 超过 22 个 属性 ) ， 实 现 Person 接 口 

case class Person(name: String, age: Int) 

// 读 取 文 件 创建 一 个 MappedRDD， 并 将 数据 写 入 Person 模 式 类 ， 隐 式 转换 为 DataFrame， 注 册 作 为 


// 临时 表 ， 供 查询 使 用 。SSPARK HOME 指 Spark 文 件 目录 , 使 用 “file:// A n I a a ebook/uncompressed/15534/OEBPS/Text/..." ARRA 
// 使 用 “hdfs:// http://www.hzcourse. com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/0EBPS/Text/.. 标识 的 HDFS 存 储 系 统 的 文件 。 

val people = sc.textFile("file:///S$SPARK HOME/examples/src/main/resources/people. 

txt").map( .split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDFY() 


// DataFrame 注 册 临 时 表 
people.registerTempTable ("peopletable") 
// 使 用 sql 运 行 SQL 表 达 式 
val result = sqlContext.sql("SELECT name, age FROM peopletable WHERE age >= 13 
AND age <= Ls 


// SQL 查询 名 $ JUtDataFrames, 通过 索引 和 字段 名 访问 ， 并 进行 RDD 操 作 
result.map (t=>"Name:"+t (0)).collect () .foreach (Println) 
result.map (t=>"Name:"+t.getAs [String] ("name")) .collect () .foreach (println) 


2. 以 编程 方式 定义 RDD 模 式 


当 匹 配 模式 (Java 的 JavaBean 类 ，Python 的 kwargs 字 典 ) 不 能 被 提前 定义 时 (例如 ， 记 录 结构 被 编码 成 一 个 字符 串 ,， 或 将 要 被 解析 的 文本 数据 集 ， 将 为 不 同 用 户 分 别 设计 的 属性 ) ， 一 个 DataFrame 
可 以 编程 方式 创建 ， 主 要 有 三 个 步骤 


1) 从 原始 RDD 中 创建 一 个 Rows 的 RDD。 
2) 创建 一 个 表示 为 StructType 类 型 的 gchema， 匹 配 在 第 1 步 创 建 的 RDD 的 RowSs 的 结构 。 


3) 通过 SQLContext 提 供 的 createDataFrame 方 法 ， 应 用 Schema 到 RowSs 的 RDD。 


// 通过 SparkContext 创 建 了 SqlContext， 并 进行 实例 化 

val sqlContext = new org.apache.spark.sql.SQLContext (sc) 
// Create an RDD 
val people = sc.textFile("file:///$SPARK HOME/examples/src/main/resources/people.txt") 
// The schema is encoded in a string 

val schemaString = "name age" 

// 导入 Spark SQL 的 Row 和 data types 

import org.apache.spark.sql.Row; 

import org.apache.spark.sql.types. 

(StructType,StructField,StringType); 

// 生成 基于 schemaString 结 构 的 Schema 

val Schema -StructType( 


schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, true))) 
// Convert records of the RDD (people) to Rows. 
val rowRDD = people.map( .split(",")).map(p => Row(p(0), p(1).trim)) 
// 将 自 定义 schema 应 用 于 RDD 


val peopleDF = sqlContext.createDataFrame (rowRDD, schema) 
// 注册 为 临时 表 people 
peopleDF.registerTempTable ("peopletable") 

// 使 用 sql 运 行 SQL 表 达 式 

val result = sqlContext.sql("SELECT name FROM peopletable") 
result.map(t => "Name: " + t(0)).collect().foreach(println) 


6.3 ”数据 源 


Spark SQL 支持 通过 DataFrame 接 口 操 作 多 种 不 同 的 数据 源 。 


DataFrame 提 供 统一 接口 加 载 和 保存 数据 源 中 的 数据 ， 包 括 : 结构 化 数据 、Parquet 文 件 、JSON 文 件 、Hive 表 ， 以 及 通过 JDBC 连 接 外 部 数据 源 。 


一 个 DataFrame 可 以 作为 普通 的 RDD 操 作 ， 也 可 以 通过 (registerTempTable) 注册 成 一 个 临时 表 ， 支 持 在 临时 表 的 数据 上 运行 SQL 查询 操作 。 


6.3.1 ”加 载 保存 操作 


DataFrame 数 据 源 默认 文件 为 Parquet 格 式 ， 可 以 通过 spark.sql.sources.default 参 数 进 行 重 新 修改 。 


不 论 何 种 格式 的 数据 源 均 采取 统一 API、read 和 write 进行 操作 ， 代 码 如 下 : 


// 读 取 parquet 格 式 数 据 

val df = sglContext.read.load("file:///$SPARK HOME/examples/src/main/resources/users.parquet") 
// 从 DataFrame 写 数据 并 保存 成 Parquet 格 式 

df.write.save("saveusers.parquet") 


1. 指 定 选 项 


Spark 支 持 通过 完全 限定 名 称 (如 org.apache.spark.sql.parquet) 指定 数据 源 的 附加 选项 ， 内 置 数据 源 可 以 使 用 短 名 称 (son. parquet, jdbc) , Spark SQL 支持 通过 format 将 任何 类 型 的 
DataFrames 转 换 成 其 他 类 型 。 


val df = sqlContext.read.format ("json").load("file:///S$SPARK HOME examples/src/main/resources/people.json") 
df.select("name", "age").write.format ("parquet").save ("namesAndAges.parquet") 


2. 保 存 模式 
可 以 通过 配置 SaveMode 指 定 如 何 处 理 现 有 数据 ， 实 现 保存 模式 不 使 用 任何 锁定 ， 而 且 不 是 原子 操作 ; 因此 ， 多 路 数据 写 入 相同 位 置 是 不 安全 的 。 当 执行 overwrite 时 ， 写 入 新 数据 之 前 原来 数据 将 被 删 
除 ， 如 表 6-4 所 示 。 


表 6-4 保存 模式 表 


Scala/Java € X 
SaveMode.ErrorIfExists (default) 如 果 保 存 数 据 已 经 存在 ，# 
SaveMode.Append 如 果 保 存 数据 已 经 存在 ， 人 退 加 DataFrame 数据 
SaveMode.Overwrite 如 果 保 存 数 据 已 经 存在 ， 重 写 DataFrame 数据 
SaveMode.Ignore 如 果 保 存 数据 已 经 存在 ， 忽 略 DataFrame 数据 


3. 保 存 持久 表 


当 使 用 HiveContext 时 ，DataFrames 通 过 saveAsTable 命 令 保存 为 持久 表 使 用 ， 与 registerTempTable 命 令 不 同 ，saveAsTable 实 现 Dataframe 的 内 容 ， 并 创建 一 个 指向 Hive Metastore 中 数据 的 指 
针 。 即 使 Spark 程 序 重新 启动 ， 连 接 相同 Metastore 的 数据 不 会 友 生 变化 。 


默认 情况 下 saveAsTable 将 创建 一 个 “管理 表 ” ， 这 意味 着 数据 的 位 置 将 由 Metastore 控 制 ， 当 表 被 删除 时 ， 管 理 表 将 表 数 据 自动 删除 。 


6.3.2 ParquetY 4t 


Parquet 是 一 种 支持 多 种 数据 处 理 系统 的 存储 格式 ，Spark SQL 提供 了 读 写 Parquet 文 件 ， 并 且 自 动 保存 原始 数据 的 模式 ， 其 具有 如 下 优点 : 

` 高 效 ，Parquet 采 取 列 式 存 储 避 免 读 入 不 需要 的 数据 ， 具 有 极 好 的 性 能 和 GC。 

: 方便 的 压缩 和 解压 缩 ， 并 有 具 有 极 好 的 压缩 比例 。 

* 可 以 直接 固化 为 Parquet 文 件 ， 也 可 以 直接 读 取 Parquet 文 件 ， 具 有 比 磁盘 更 好 的 缓存 效果 。 
Spark SQL 对 读 写 Parquet 文 件 提供 支持 ,方便 加 载 Parquet 文 件数 据 到 DataFrame， 供 Spark SQL 操作 ， 也 可 以 将 DataFrame 写 入 Parquet 文 件 ， 并 自动 保留 原始 Scheme 架构 。 


在 外 部 数据 源 方面 ，Spark 对 Parquet 的 支持 有 了 很 大 的 加 强 ， 更 快 的 metadata discovery 和 schema merging; 同时 能 够 读 取 其 他 工具 或 者 库 生 成 的 非 标 准 合法 的 Parquet 文 件 ; 以 及 更 快 、 更 鲁 棱 的 
动态 分 区 插入 。 


1. 加 载 数据 编程 


通过 sqlContext.implicits. 隐 式 转换 一 个 RDD 为 DataFrame， 并 将 DataFrame 保 存 为 Parquet 文 件 ; 加 载 保存 的 Parquet 文 件 ， 重 新 构建 一 个 DataFrame， 注 册 成 临时 表 ， 供 SQL 查询 使 用 。 


// 创建 sqlContext 

val sqlContext = new org.apache.spark.sql.SQLContext (sc) 

// 隐 式 转换 为 一 个 DataFrame 

import sqlContext.implicits. 

// 使 用 case 定 义 Schema， 实 现 Person 接 口 

case class Person (name: String, age: Int) 

// 读 取 文件 创建 一 个 MappedRDD， 并 将 数据 写 入 Person 模 式 类 ， 隐 式 转换 为 DataFrame 

val peopleDF = sc.textFile("file:///$SPARK HOME/examples/src/main/resources/ 
people.txt").map( .split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF() 
// 保存 DataFrame， 保存 为 Parquet 格 式 

peopleDF.write.parquet ("people.parquet") 

// mR Parquet x44% 7; DataFrame 

val parquetFile = sqlContext.read.parquet ("people.parquet") 

// 将 DataFrame 注 册 为 临时 表 ， 供 SQL 查询 使 用 

parquetFile.registerTempTable ("parquetTable") 

val result = sqlContext.sql("SELECT name FROM parquetTable WHERE age >= 13 AND age <= 19") 
result.map(t => "Name: " + t(0)).collect().foreach(println) 


2.53 EX &3 (partition discovery) 


表 分 区 (table partitioning) 是 一 种 常见 的 优化 方法 ， 用 于 像 Hive 一 样 的 系统 。 对 于 分 区 表 ， 数 据 通 常 存 储 在 不 同 的 目录 中 ， 在 每 个 分 区 目录 路 径 中 对 分 区 列 的 值 进行 编码 。 
Parduet 数 据 源 能 够 自动 发 现 和 推断 分 区 信息 ， 使 用 以 下 目录 结构 存储 以 前 使 用 的 人 口 数 据 到 一 个 分 区 表 ， 以 gender 和 country 作 为 分 区 列 : 


path ———table 


gender-male 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
country-US 
data.parquet 
country-CN 
data.parquet 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
gender-female 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
country-US 
data.parquet 
country-CN 
data.parquet 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 


- 
e 
Hh 


f&path/table, fi&sFHSQLContext.read&parquetskloadáp S, Spark SQL 自动 提取 分 区 信息 ， 返 回 的 DataFrame 模 式 如 下 : 


|-- name: string (nullable = true) 
|-- age: long (nullable = true) 

|-- gender: string (nullable = true) 
|-- country: string (nullable = true) 


分 区 列 的 数据 类 型 是 自动 映射 ， 支 持 numeric 数 据 类 型 和 string 类 型 自动 推断 。 
3. 模 式 合并 (schema merging) 


如 同 ProtocolBuffer、Avro、Thrift，Parquet 也 支持 模式 演进 ， 用 户 可 以 从 一 个 简单 的 模式 开始 ， 逐 步 根据 需要 添加 更 多 的 列 。 通 过 这 种 方式 ， 用 户 最 终 得 到 多 个 不 同 但 是 能 相互 兼容 模式 的 Parquet 
文件 ，Parquet 数 据 源 能 够 自动 检测 这 种 情况 ， 进 而 合并 这 些 文件 。 


由 于 模式 合并 是 相对 昂贵 的 操作 ， 在 很 多 情况 下 并 非 必须 ， 为 了 提升 性 能 ， 在 1.5.0 版 本 中 默认 关闭 。 


// 隐 式 转换 一 个 RDD 为 DataFrame 

import sqlContext.implicits. | 

// 创建 一 个 DataFrame， 存 储 数据 到 一 个 分 区 目录 

val dfl = sc.makeRDD(1 to 5).map(i => (i, i * 2)).toDF("single", "double") 
W 


d rite.parquet ("data/test_table/key=1") 

// 创建 一 个 新 DataFrame， 存 储 在 一 个 新 的 分 区 目录 

val df2 = sc.makeRDD(6 to 10).map(i => (i, i * 3)).toDF("single", "triple") 
df2.write.parquet ("data/test table/key-2") 

// 读 取 分 区 表 

val df3 = sqlContext.read.option ("mergeSchema", "true").parquet("data/test table") 
df3.printSchema () 

// 通过 基础 DataFrame 函 数 ， 以 树 格式 打印 Schema， 包 含 分 区 目录 下 全 部 的 分 区 列 
df3.printSchema () 

// root 

// |-- single: int (nullable - true) 

// |-- double: int (nullable - true) 

// |-- triple: int (nullable - true) 

// |-- key: int (nullable - true) 


可 见 ，Parquet 数 据 源 自动 从 文件 路 径 中 发 现 了 key 这 个 分 区 列 ， 并 且 正 确 合并 了 两 个 不 相同 但 相 容 的 Schema。 值 得 注意 的 是 ， 如 果 最 后 的 查询 中 查询 条 件 跳 过 了 key=1 这 个 分 区 ，Sspark SQL 的 查询 
优化 器 会 根据 这 个 查询 条 件 将 该 分 区 目录 和 甬 掉 ， 完 全 不 扫描 该 目录 中 的 数据 ， 从 而 提升 查询 性 能 。 


4. 配 置 


可 以 在 SQLContext 中 使 用 setConf 方 法 ， 或 在 运行 时 使 用 SQL 命令 SET key=value， 实 现 对 Parquet 文 件 的 配置 ， 参 见 表 6-5 配 置 文件 。 


表 6-5 配置 文件 


属性 名 称 默认 值 * X 


- — - EFX Impala, Spark SQL 早期 版 本 ， 将 二 
spark.sql.parquet.binary AsString alse VM PPS OPEP IE 
Emi XC UFRERE DE T] P EAA 
| | fH Xf Impala, Spark SQL 早期 版 本 ， 将 
spark.sql.parquet.int96AsTimestamp true 
INT96 文件 解释 成 timestamp 提供 菲 容 
打开 Parquet 模式 元 数据 缓存 ， 加 快 查询 静 
spark.sql.parquet.cache Metadata true m p s 
信 数据 的 速度 
| | 当 写 Parquet 文件 时 ,设置 压缩 格式 ， 可 接 
spark.sql.parquet.compression.codec gzip -i PET 
受 uncompressed, snappy, gzip, lzo 等 格式 


spark.sql.parquet.filterPushdown 使 用 过 滤 push-down 优化 过 滤 掉 不 必要 的 IO 


| VE EL false HF, Spark SQL 使 用 Hive SerDe 
spark.sql.hive.convertMetastoreParquet true : r 
SerDes 构建 Parquet 表 ， 代 替 内 置 的 支持 


org.apache.parquet.hadoop. 


spark.sql.parquet.output.committer.class 选择 不 同 的 output committer 类 


ParquetOutputCommitter 
spark.sql.parquet.mergeSchema 是 否 启 动 模式 合并 


6.3.3 JSON 数据 集 


Spark SQL 可 以 自动 推断 出 一 个 JSON 数 据 集 的 Schema 并 作为 一 个 DataFrame 加 载 ， 通 过 SQLContext.read.json () 方法 使 用 JSON 文 件 创建 DataFrame。 


// 创建 sqlContext 
val sqlContext = new org.apache.spark.sql.SOLContext (sc) 
// 设置 JSON 数 据 集 的 路 径 ， 可 以 是 单个 文件 或 者 一 个 目录 


val path= file:///Spark Home/examples/src/main/resources/people.json" 
val people = sqlContext.read.json(path) 


// 打印 Schema， 并 显示 推断 的 Schema 
people.printSchema () 

// root 

// |-- age: integer (nullable - true) 
// |-- name: string (nullable = true) 


// 注册 DataFrame 作 为 一 个 临时 表 

people.registerTempTable ("jsonTable") 

// 使 用 sql 运 行 SQL 表 达 式 

val teenagers = sqlContext.sql("SELECT name FROM jsonTable WHERE age >= 13 AND age <= 19") 


或 者 通过 转换 一 个 JSON 对 象 的 RDD[String] 创 建 DataFrame。 


val anotherRDD = sc.parallelize ("""("name":"Yin","address":[("city":"Columbus", state":"Ohio"])""" :: Nil) 
val anotherPeople = sqlContext.read.json (anotherRDD) 


6.3.4 Hivez& 


Spark SQL 支持 从 Hive 表 中 读 写 数据 ， 然 而 默认 版 本 Spark 组 件 并 不 包括 Hive 大 量 的 依赖 关系 。Hive 支 持 通过 添加 -Phive 和 -Phive-thriftserver 标 志 对 Spark 重 新 构建 一 个 包括 Hive 的 新 组 件 ，Hive 的 新 
组 件 必须 分 发 到 所 有 的 Worker 节 点 上 ， 因 为 Worker 节 点 需要 访问 Hive 的 serialization 和 deserialization 库 (SerDes) ， 以 便于 访问 存储 在 Hive 中 的 数据 ， 所 以 该 Hive 集 合 Jar 包 必须 拷贝 到 所 有 的 Worker 
节点 。 


除了 基本 的 SQLContext，Spark SQL 还 可 以 创建 一 个 HiveContext， 该 HiveContext 通 过 基本 的 SQLContext 提 供 了 一 系列 的 方法 集 ， 可 以 使 用 更 完整 的 HiveQL 解 析 器 查询 ， 访 问 Hive 的 UDF， 并 从 
Hive 表 读 取 数 据 ， 以 及 SerDe 文 持 ， 如 图 6-4 所 示 。 


MetaStore Spark SOL 


Apache Spark 


图 6-4 Spark SQL 支持 Hive 组 件 


1. 示 例 数 据 


下 面 的 示例 程序 ， 在 安装 目录 的 examples\src\main\resources\ 目 录 下 ， 主 要 参考 : kv1.txt， 这 里 的 数据 集 如 下 所 示 。 


打开 kv1.txt 文 件 可 以 发 现 ， 里 面 放 置 的 是 一 行 一 行 的 数据 ， 每 行 数据 的 组 成 方式 是 字符 串 、 空 格 、 字 符 串 。 


238 val 238 
86 val 
311 val 
27 val 
165 val 
409 val 
255 val 
278 va] 
98 val 


27 
165 


2. 创 建 HiveContext 


使 用 Hive， 必 须 先 构建 一 个 继承 SQLContext 的 HiveContext 对 象 ， 并 加 入 在 MetaStore 中 查找 表 和 使 用 HiveQL 写 查询 功能 的 支持 ;可 以 在 conf 目 录 hive-site.xml 文 件 中 添加 Hive 的 配置 文件 ， 当 运行 
一 个 YARN 集 群 时 ，datanucleus jars 和 hive-site.xml 必 须 在 Driver 和 全 部 的 Executors 启 动 。 


一 个 简单 的 方法 如 下 : 在 spark-submit 命 令 行 通过 --jars 参 数 和 --file 参 数 加 载 ， 即 使 hive-site.xml 文 件 没有 配置 ， 仍 然 可 以 创建 一 个 HiveContext， 并 会 在 当前 目录 下 自动 地 创建 metastore_db 和 


warehouse, 


下 面 使 用 Scala 语 言说 明 HiveContext 创 建 方式 ， 示 例 代码 如 下 : 


// SparkContext 实 例 

val sc: SparkContext = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 通过 sc 创建 HiveContext 的 实例 hiveContext 

val hiveContext = new org.apache.spark.sql.hive.HiveContext (sc) 


3. 使 用 Hive 操 作 数 据 


使 用 HiveContext 无 需 单独 安装 Hive， 可 以 使 用 spark.sql.dialect 选 项 选择 解析 查询 语句 的 SQL 的 特定 转化 ， 这 个 参数 可 以 使 用 SQLContext 上 的 setConf 方 法 ， 也 可 以 使 用 SQL 上 的 SET key=value 命 令 
进行 修改 。 


// 通过 HiveContext 的 Sql 命令 创 DR 
hiveContext.sql("CREATE TAB F NOT EXISTS Src (key INT, value STRING)") 
// 加 载 数据 ，$SPARK HOME 指 Spark ARE 装 目录 ， 使 用 “file:// http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...” 标 识 的 本 地 文件 
hiveContext.sql("LOAD DATA LOCAL INPATH 'file: // /$Spark ` Home/examples/src/main/resources/kvl.txt' INTO TABLE src") 
// HiveQL 的 查询 表达 
hiveContext.sql("FROM src SELECT key,value") 
.collect ().foreach(println) 
// 使 用 HiVeContext 创 建 表 命令 
CREATE [EXTERNAL] TABLE[IF 
( col name data type,…) 
[PARTITIONED BY(col name data type,…)] 
[[ROW FORMAT row format]] i 
[STORED AS file format] 
[LOCATION hdfs path] 


NOT EXISTS] table name 


4. 与 Hive 兼 容 性 


Spark SQL 的 Hive 支 持 最 重要 的 一 部 分 是 与 Hive metastore 的 互动 ， 使 得 Spark SQL 能 够 访问 Hive 表 的 元 数据 。 从 Spark 1.4 开 始 ， 单 个 二 进 制 构建 的 Spark SQL 可 以 查询 不 同 版 本 的 Hive 
metastores, Spark 1.5 内 置 的 Hive 1.2.1， 并 使 用 内 部 执行 类 SerDe、UDF、UDAF 等 。 


Spark SQL 使 用 两 个 Hive 客 户 端 : 一 个 用 于 执行 本 地 Hive 命 令 ， 另 一 个 用 于 和 Hive metastore 交 互 ，Hive 版 本 由 使 用 者 决定 ， 并 使 用 一 个 单独 的 类 加 载 器 来 避免 依赖 冲突 。Spark 1.5 支 持 可 以 连接 
Hive 0.13 至 1.2 的 metastore， 具 体 如 表 6-6 所 示 。 


表 6-6 Hive 版 本 依赖 关系 


属性 名 称 


spark.sql.hive.metastore.version 0.13.1 


builtin 


spark.sql.hive.metastore.jars 


属性 名 称 


com.mysqgl.jdbc, org. 


spark.sgl.hive.metastore. 


postgresql, com.microsoft. 


sharedPrefixes 


sglserver, oracle.jdbc ZH. 其 他 


spark.sgql.hive.metastore. 


(empty) 


barrierPrefixes 


5. 支 持 Hive 特 性 


Spark SQL 支持 绝 大 多 数 的 Hive 特 性 ， 比 如 : 


& x 


至 1.2.1 版 本 


Eff: builtin 
l' Hive 和 Hadoop 类 路 径 的 标 


支持 0.12.0 版 本 
MHE Hive Metastore Client 的 Jar 位 置 ， 
( Hive 1.2.1 人 


准 格 云 


Hive metastore 版 本 ， 


Maven 、 


—. 
Mi 
vE 
* 
— 


默认 值 €$ X 


IR, 决定 Spark SQL 和 特定 版 本 
— i QUEUE: 


的 例子 是 JDBC Jk zl fz Fr 93 metastore 
mu du E p pE C EARE, qup, 


s 定义 输出 源 
外 了 前 符 类 琢 缀 列表 ， 应 该 显示 的 加 载 与 Spark 
T 个 版 本 的 Hive。 例 如 ，Hive UDF 声明 的 前 


EHY (i.e. org.apache.spark.*) 


: Hive 查 询 语句 ， 包 括 : SELECT. GROUP BY, ORDER BY, CLUSTER BY, SORT BY; 


LE 


| Hive 运 算 符 ， 包 括 : 关系 运算 符 〈=、<==>、 
Š 


. XD. XX, D. DS 


In. cos) . #4 ERA (instr. length. printf4-) ; 


" 用 户 自 定义 聚合 函数 (UDAP) ; 


. 用 户 定义 的 序列 化 格式 (SerDes) ; 


=E 


算术 运算 符 (+、-、*、/、% 等 ) S ZARI AND, && OR |F) 、 复 杂 类 型 构造 函数 、 数 据 函 数 (sign. 


. 连接 操作 ， 包 括 : JOIN, fLEFT|RIGHT|FULL)OUTER JOIN, LEFT SEMI JOIN、CROSS JOIN ; 


联合 操作 (Unions) ; 

- 子 查 询 : SELECT col FROM (SELECT a+b AS col from t1) t2; 
: 抽样 (Sampling) ; 

- 解释 (Explain) ; 

- 分 区 表 (Partitioned tables) ; 


: 所 有 的 HiveDDL 操 作 函 数 ， 


包括 : CREATE TABLE. CREATE TABLE AS SELECT. ALTER TABLE; 


- K 2 KHiveZEGE X ÆTINYINT, SMALLINT, INT. BIGINT, BOOLEAN, FLOAT. DOUBLE, STRING. BINARY, TIMESTAMP, DATE. ARRAY<>, MAP<>, STRUCT<>, 


6.3.5 “通过 JDBC 连 接 数据 库 


Spark SQL 还 包括 一 个 可 以 通过 JDBC 从 其 他 数据 库 读 取 数 据 的 数据 源 ， 并 返回 
(不 同 于 Spark SQL JDBC server 人 允许 其 他 应 用 程序 使 用 Spark SQL 运行 查询 。 ) 


而 不 需要 提供 一 个 Class Tag, 


在 Spark 类 路 径 中 包含 特定 数据 库 的 JDBC 驱 动 程序 ， 如 通过 Spark Shell; 


SPARK CLASSPATH-postgresql-9.3-1102-jdbc41.jar bin/spark-shell 
val jdbcDF = sqlContext.load("jdbc", Map( 

"url" -> "jdbc:postgresql:dbserver", 

"dotable" -» "schema.tablename")) 


使 用 数据 源 APl， 


一 个 DataFrame， 在 spark SQL 很 容易 处 理 ， 或 者 Join 其 他 的 数据 源 。 除 了 scala 语 言 ，Java 或 Python 语言 也 很 容易 操作 


连接 postgresq| 命 令 : 


加 载 远 程 数据 库 的 表 作为 一 个 DataFrame 和 Spark SQLI 临 时 表 ， 支 持 的 参数 如 表 6-7 所 示 。 


表 6-7 JDBC 支 持 参数 表 


属性 名 称 -A X 
url ES JDBC URL 


Xa | 


dbtable hy 


—— 


driver MEA , 


被 加 载 到 Master 和 Workers $5., Jf H fti Driver 2: JDBC JT fr LW 
这 些 选 项 描述 了 多 个 Workers 并 行 读 数据 时 如 何 np 其 中 ， 


partitionColumn, lowerBound, | 项 被 指定 ， 所 有 选项 者 必须 被 指定 。partitionColumn 必须 ; 
中 所 有 的 行将 分 区 并 返回 


6.3.6 ”多 数据 源 整 合 查询 的 小 例子 
根据 6.2 节 DataFrame 和 6.3 节 DataFrame 数 据 源 ， 设 计 一 个 通过 不 同 的 数据 源 ， 构 建 基于 相同 Schema 的 DataFrame， 并 进行 汇总 操作 。 


// 通过 SparkContext 创 建 sqlContext， 并 进行 实例 化 

val sqlContext = new org.apache.spark.sql.SQLContext (sc) 
// 将 一 个 RDD 隐 式 转换 为 一 个 DataFrame 

import sqlContext.implicits. | 

// 使 用 case 定 义 Log 类 

case class Log(id: String, info: String) 

// 创建 一 个 RDD 示 例 ， 包 含 a 和 了 bb 两 个 字段 

val dfl = sc.parallelize(Array(("idl","infol"), ("id2","info2"))).map (l-»Log(l. 1, 1. 2)).toDF() 
// 查看 Schema 架构 

dfl.printSchema () 

root 

-- id: string (nullable = true) 

-- info: string (nullable = true) 

// 将 df1 文 件 保 存 成 Parquet 文 件 ， 其 中 $SPARK TEMP 指 文件 保存 目录 

dfl.write.parquet ("file:///$SPARK TEMP/df1.parquet") 

val df2 = sc.parallelize( Array(("id3","info3"), ("id4","info4"), ("id5","info5"))). map(l-»Log(l. 1,1. 2)).toDF() 
// 将 df2 文 件 保存 成 Parquet 文 件 ， 其 中 $SPARK TEMP 指 文件 保存 目录 

rdd2.write.parquet ("file:///$SPARK TEMP/df2.parquet") 

// 数据 源 1 进 行 加 载 
val datal-sqlContext.read.parquet ("file:///$SPARK TEMP/dfl.parquet") 
// 数据 源 2 进 行 加 载 
val data2 -sqlContext.read.parquet ("file:///$SPARK TEMP/df2.parquet") 
// 数据 源 进行 整合 

val data3 = datal.unionAll (data2) 

// 注册 成 临时 表 
data3.registerTempTable ("logs") 
// 查询 执行 
sqlContext.sql("select * from logs").collect() 


64 ”分布 式 的 SQL Engine 
Spark SQL 作 为 一 个 分 布 式 查询 引擎 ， 支 持 使 用 JDBC/ODBC, 或 者 命令 行 接 口 ， 最 终 用 户 或 者 用 户 程序 直接 连接 Spark SQL 运行 SQL 查询 。 
6.4.1 运行 Thrift JDBC/ODBC 服 务 


Spark SQL 的 Thrift JDBC 服 务 被 设计 成 “ 开 箱 即 用 ”， 兼 容 于 现 有 Hive， 不 需要 修改 Hive 元 数据 ， 或 者 改变 表 中 数据 位 置 或 表 的 分 
Thrift JDBC/ODBC 服 务 对 应 于 Hive 0.13 的 HiveServer2， 可 以 通过 Spark 或 者 Hive 0.13 的 beeline 脚 本 测试 JDBC 服 务 。 


运行 start-thriftserver.sh， 启 动 JDBC/ODBC 服 务 。 


./sbin/start-thriftserver.sh 


这 个 脚本 接受 所 有 bin/spark-submit 命 令 行 选项 ， 可 以 通过 环境 变量 修改 HiveSserver2 端 口 (默认 10000) , 


export HIVE SERVER2 THRIFT PORT-«listening-port» 


export HIVE SERVER2 ' | THRIFT BIND HOST-«listening-host» 


./Sbin/start-thriftserver.sh --master «master-uri» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OE 


3 


RER JDBC 3€, SQL 查询 的 FROM T SEE FF 何 宇 段 都 是 有 效 的 
JDBC 驱动 程序 的 类 名 必须 连接 到 这 个 URL。 运 行 JDBC 命令 之 前 ， 


任何 一 个 选 
个 问题 表 的 数字 


upperBound, numPartitions 9]. lowerBound fll upperBound ERIR 2r EXPE, pA uh 中 的 行 . 


也 可 以 通过 --hiveconf 选 项 指定 Hive 属 性 。 


./sbin/start-thriftserver.sh \ 
--hiveconf hive.server2.thrift.port-«listening-port» \ 
--hiveconf hive.server2.thrift.bind.host-«listening-host» \ 
--master «master-uri» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 


使 用 beeline 测 试 Thrift JDBC/ODBC 服 务 ， 命 令 如 下 : 


./bin/beeline 

beeline> !connect jdbc:hive2:// localhost:10000 
scan complete in 4ms 
Connecting to jdbc:hive2:// localhost:10000 


6.4.2 运行 Spark SQL CLI 


Spark SQL CL 是 在 本 地 模式 运行 Hive Metastore 服 务 的 一 个 有 效 工具 ， 通 过 命令 行 接收 查询 输入 。 


通过 运行 spark-sq| 启 动 Spark SQL CLI, 


BPS/Text/... 


./bin/spark-sql 


6.5 ”性 能 调 优 
对 于 一 些 Spark SQL 任务 ， 可 以 通过 缓存 数据 、 调 优 参数 、 增 加 并 行 度 提升 性 能 . 


6.5.1 缓存 数据 


Spark SQL 调 用 sqlContext.cacheTable ("tableName") 或 者 dataFrame.cache () 构建 一 个 内 存 中 的 列 格式 缓 存 表 ，Spark SQL 仅 扫描 需要 的 列 ， 并 且 自 动 调 整 压缩 比 ， 使 内 存 使 用 率 和 GC 压力 最 
小 化 ， 结 束 之 后 调用 sqlContext.uncacheTable ("tableName") 移 除 缓存 表 。 


表 6-8 总 结 了 内 存 中 缓存 配置 ， 可 以 在 SQLContext 上 使 用 setConf 方 法 ,或 者 在 SQL 中 运行 SET key=value 命 令 


表 6-8 ”内存 中 缓存 配置 参数 


属性 名 称 默认 值 £ X 


spark.sql.inMemoryColumnarStorage. 当 设 置 为 true，Sp Jr e EM fi vil A s ed 
true 
compressed kn e fid 


spark.sql.inMemoryColumnarStorage. — Tw A A EHJHEAERER SE. XdlES n] ER ATTA EH 
batchSize MEIE, [HIESRIESUOBS II UH PIT 8 Ua H3 XU 


6.5.2. RE 


调 优 参数 可 以 用 来 调 优 查询 执行 的 性 能 ， 如 表 6-9 所 示 ， 可 以 优化 部 分 选项 配置 参数 。 


表 6-9 优化 选项 配置 参数 


REET z 
当 执 行 Join 操作 时 ， 对 一 个 将 要 和 锥 三 播 到 有 也有 Worker 


| 


in 4 表 配 置 最 大 字 节 长 度 ， di 设置 value 为 -1 禁止 


—-I 


spark.sgl.autoBroadcastJoin Threshold | 10485760 (10MB) 


spark.sql.tungsten.enabled AETIA Tungsten w, WAFA 


( £ ) 
属性 名 称 $ x 
yi 站 H 日 十 机 可 
"MAT Joins 或 Agegregations 进行 Shuffling 数据 时 ， 配 
spark.sgql.shuffle.partitions 200 


Br n] HE DER ACH 


E Ur EL7J true Hf, TR dim 2 A7 Sort iai ii $1 4 2X. E. 
spark.sql.planner.externalSort true A Wf A EXC Eh 
TT A TE. F | J ; AY FY FT 


6.5.3 ”增加 并 行 度 
除了 在 内 存 中 缓存 数据 ， 调 优 配置 参数 之 外 ， 还 可 以 通过 合理 设置 并 行 度 提升 文件 加 载 效率 和 并 行 执行 效率 。 
由 于 Spark 的 数据 采用 内 存 列 式 存储 ， 实 际 执行 查询 阶段 效率 较 高 ， 相 对 而 言 ， 数 据 加 载 阶段 耗 时 较 长 ， 对 于 如 何 提升 数据 加 载 效率 ， 并 行 加 载 数据 是 一 个 优化 方向 。 


当 出 现实 际 查询 执行 效率 不 高 时 ， 通 过 合理 设置 并 行 度 也 是 提升 效率 的 一 种 方法 。 


6.6 ”数据 类 型 

Spark SQL 的 所 有 数据 类 型 位 于 org.apache.spark.sql.types 包 中 ，Spark SQL 和 DataFrames 支 持 以 下 数据 类 型 : 
1. 数 值 类 型 (numeric typ) 

* 字 节 类 型 (ByteType) ， 表 示 1byte 的 有 符号 整数 ， 其 范围 为 -128~127 ; 

- 短 整 型 (ShortType) ， 表 示 2byte 的 有 符号 整数 ， 其 范围 为 -32768~32767; 

. 整 型 (IntegerType) ; 


“ 长 整 型 (LongType) ; 


“ 浮 点 型 (FloatType) ; 
: XU RI (DoubleType) ; 


: 数值 型 (DecimalType) o 
2. 字 符 串 类 型 (String type) 
. 字符 串 类 型 (SttingType) ， 表 示 字 符 串 的 值 。 
3. 二 进 制 类 型 (Binary type) 
. 二 进 制 类 型 (Bina Type) ， 表 示 字 节 序 列 的 值 。 
4. 布 尔 类 型 (Boolean type) 
` 布尔 类 型 (BooleanType) ， 表 示 布 尔 类 型 的 值 。 
5. 时 间 类 型 (Datetime type) 
“ 时 间 惟 类 型 (TimestampType) ， 表 示 一 个 包含 字段 year、month、day、hour、minute 以 及 second 的 值 ; 
日 期 类 型 (DateType) ， 表 示 字 段 year、month、day。 
6. 复 杂 类 型 (Complex types) 


: 数组 类 型 (ArrayType (elementType, containsNull) ) ， 表 示 包 含 类 型 elementType 的 序列 ，containsNull 用 于 表示 AtrrayType 的 值 是 否 允 许 为 null 值 。 


Map 类 型 (keyType，valueType，valueContainsNull) ， 表 示 包 含 key-value 对 的 集合 ，key 的 类 型 由 keyType 描 述 ， 值 的 类 型 由 valueType 描 述 。 对 于 Map 类 型 ，keys 不 允许 有 null，valueContainsNull 用 于 表明 
值 是 否 允 许 为 null。 


StructType (fields) ， 表 示 由 StructFields (fields) 描述 的 序列 ， 支 持 排 序 功能 。 


: StructField (name, dataType, nullable) : 表示 StructType 中 的 字段 ， 字 段 的 名 称 由 name 表 示 ， 字 段 的 数据 类 型 由 datalType 表 示 ，nullable 用 于 表示 值 是 否 允 许 为 null 值 。 


67 本章 小 结 
本 章 重点 讲解 Spark SQL 和 DataFrame 相 关 知 识 ， 从 Spark SQL 的 发 展 、 架 构 、 特 点 、 性 能 讲 起 ， 并 通过 DataFrame 与 RDD 的 区 别 ， 引 入 DataFrame 概 念 。 重 点 讲解 了 创建 DataFrame， 以 及 
DataFrame 的 操作 : DataFrame Action、 基 础 DataFrame 函 数 、 集 成 语言 查询 、 输 出 操作 和 RDD 操 作 ; 同时 讲解 了 以 反射 机 制 推断 RDD 模 式 和 以 编程 方式 定义 RDD 模 式 两 种 生成 DataFrame 的 策略 。 


针对 DataFrame 的 数据 源 ， 介 绍 了 加 载 保存 操作 ， 如 何 通 过 Parquet 文 件 、JSON 数 据 集 、Hive 表 、JDBC 连 接 数据 库 构 建 数据 源 ; 最 后 讲解 了 分 布 式 SQL 引擎 Thrift JDBC 和 Spark SQL CLI; 并 对 性 能 
调 优 进行 了 探讨 。 


DataFrame API 的 引入 一 改 RDD API 高 冷 的 姿态 ， 令 Spark 变 得 更 加 平易 近 人 ， 使 大 数据 分 析 的 开发 体验 与 传统 单机 数据 分 析 的 开发 体验 越 来 越 接近 。 外 部 数据 源 API 体 现 出 的 则 是 兼容 并 荔 。 目 前 ， 除 
了 内 置 的 JSON、Parquet、JDBC 以 外 ， 社 区 中 已 经 涌现 出 了 CSV、Avro、HBase 等 多 种 数据 源 ，Spark SQL 多 元 一 体 的 结构 化 数据 处 理 能 力 正在 逐渐 释放 ， 令 Spark 的 生态 更 加 健壮 和 多 样 。 


第 7 章 深入 了 解 Spark Streaming 


是 以 圣人 后 其 身 而 身 先 ， 外 其 身 而 身 存 。 
一 一 《道德 经 》 第 七 章 


有 道 的 人 把 自己 放 在 后 面 ， 反 而 能 赢得 爱戴 ; 把 自己 置 于 度 外 ， 反 而 能 保全 生命 。 在 当今 社会 ， 尤 其 在 知识 的 世界 里 ， 每 个 人 都 有 自己 的 专长 。 我 们 要 做 有 道 的 人 ， 不 是 要 把 自己 标榜 成 圣人 ， 而 是 要 
学 习 这 种 舒张 胸怀 的 态度 。 比 如 “ 塞 丛 失 马 ， 琐 知 非 福 ”，“ 失 之 东阳 ， 收 之 桑 榆 ”讲述 的 就 是 这 种 态度 。 过 度 拘泥 于 学 习 的 得 失 ， 看 起 来 成 效 显著 ， 实 际 上 却 让 自己 的 学 习 失 去 了 弹性 。 


如 何 才 能 有 弹性 地 学 习 ， 那 就 从 掌握 大 数据 的 实时 处 理 开始 。 考 虑 具体 实现 ， 如 果 使 用 MapReduce 框 架 ， 实 时 性 将 无 法 得 到 保证 ;而 如 果 采 用 Storm 或 者 54 等 流 式 处 理 框架 ， 虽然 保证 了 实时 性 ,但 
实现 的 复杂 度 大 大 提高 。Spark streaming 在 两 者 之 间 找 到 了 一 个 平衡 点 ， 能 够 以 准 实时 的 方式 容易 地 实现 较为 复杂 的 数据 处 理 。 


本 章 重点 探讨 大 数据 处 理 中 基于 实时 数据 流 的 数据 处 理 ， 从 DStream 编 程 模型 开始 ， 针 对 DStream 的 基本 输入 源 和 高 级 输入 源 ， 以 及 DStream 的 转换 和 输出 进行 了 详细 讲解 ， 在 此 基础 上 ， 又 分 别 对 性 
能 调 优 和 容错 处 理 进行 了 说 明 ， 最 后 以 一 个 案例 对 本 章 知 识 进行 总 结 。 


7.1 ”基础 知识 
本 节 重 点 介绍 了 Spark Streaming 的 工作 原理 以 及 DStream 的 编程 模型 。 


7.1.1 Spark Streaming 工 作 原 理 


Spark Streaming 属 于 核心 Spark API 的 扩展 ， 支 持 实时 数据 流 (live data streams) 的 可 扩展 (scalable) 、 高 吞吐 (high-throughput) 、 容 错 (fault-tolerant) 的 流 处 理 (stream 
processing) 。 可 以 接受 来 自 Kafka、Flume、ZeroMQ、Kinesis、Twitter 或 TCP 套 接 字 的 数据 源 ， 也 可 以 使 用 map、reduce、join、window 等 高 级 函数 表示 的 复杂 算法 进行 处 理 ， 处 理 的 结果 数据 可 以 
输出 到 文件 系统 、 数 据 库 、 现 场 dashboards 等 ， 也 可 以 直接 使 用 内 置 的 机 器 学 习 算 法 、 图 形 处 理 算 法 处 理 数据 。 


基本 的 数据 输入 /输出 示意 图 如 图 7-1 所 示 。 基 本 输入 源 (HDFS、TCP 套 接 字 、Akka Actors) 和 高 级 输入 源 (Kafka、Flume、ZeroMQ、Kinesis、Twitter 等 ) 均 可 直接 对 Spark Streaming 进 行 输 


入 ， 经 过 处 理 的 数据 可 以 存储 在 文件 系统 (如 HDFS) 、 数 据 库 (如 HBase) 、 其 他 输出 (如 Dashboards) 等 。 
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AkkaActors 
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Spark streaming 的 工作 原理 如 图 7-2 所 示 ， 该 图 显示 了 整个 Spark Streaming 的 数据 处 理 流 程 ， 在 接收 到 实时 输入 数据 流 (live input data streams) 后 ， 将 数据 划分 成 批 次 (divides the data into 


batches) ， 然 后 传 给 Spark Engine 处 理 ， 按 批 次 生成 最 后 的 结果 流 (generate the final stream of results in batches) 。 


图 7-1 Æ T Spark Streaming 的 数据 输入 /输出 示意 图 


按 批 次 处 建 过 鸭 


批 次 的 输入 


Streaming mmm = 


图 7-2 Spark Stteaming 的 工作 原理 


Spark Streaming 将 流 式 计算 分 解 成 一 系列 短小 的 批 处 理 作业 ， 具 有 如 下 特性 : 
能 线性 扩展 至 超过 数 百 个 节点 。 
- 实现 亚 秒 级 延迟 处 理 。 
. 可 与 Spatk 批 处 理 和 交互 式 处 理 无 颖 集成 。 
. 提供 了 一 个 简单 的 API 来 实现 复杂 的 算法 。 


“更 多 的 网 络 流 方式 支持 ， 包 括 Kafka、Flume、Kinesis、T 了 wittetr、ZeroMQ 等 。 


7.1.2 ”DStream 编 程 模型 

Spark Streaming 提 供 了 一 种 称 为 DStream (Discretized Stream， 离 散 流 ) 的 高 级 抽象 连续 数据 流 。DStream 可 以 从 数据 源 (如 Kafka、Flume、Kinesis) 的 输入 数据 流 创建 ， 也 可 以 在 其 他 
DStream 上 应 用 一 些 高 级 操作 创建 ， 一 个 DStream 可 以 看 作 是 一 个 RDDs 的 序列 。 

作为 Spark 实 时 计算 提供 的 一 个 新 的 编程 模型 DStream， 其 具有 以 下 特征 : 一 个 高 层次 的 函数 式 编 程 API、 强 一 致 性 以 及 高 效 的 故障 恢复 。 


有 别 于 传统 的 流 式 计算 ，DStream 的 核心 思想 是 将 计算 作为 一 系列 较 小 时 间 间 隔 的 、 状 态 无 天 的 、 确 定 批 次 的 任务 ， 每 个 时 间 间 隔 内 接收 到 的 输入 数据 被 可 靠 地 存储 在 集群 中 ， 作 为 它 的 一 个 输入 数据 
集 。 当 某 个 时 间 间 隔 完 成 ， 将 对 相应 的 数据 集 并 行 地 进行 Map、Reduce 和 groupBy 等 操作 ， 产 生 中 间 数 据 或 输出 新 的 数据 集 ， 并 存储 在 RDD 中 。 任 务 间 的 状态 可 以 通过 RDD 重 新 计算 ,得 益 于 计算 任务 被 


分 解 成 一 系列 的 小 任务 ， 用 户 可 以 在 合适 的 粒度 上 呈现 任务 间 的 依赖 关系 ,而且 DStream 也 能 采用 强大 的 错误 恢复 技术 ， 如 并 行 恢复 。 


基于 DStream 实 现 的 Spark Streaming 模 型 ， 如 图 7-3 所 示 ，Spark Streaming 作 为 每 一 批 次 数据 的 处 理 引 擎 。 
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图 7-3 ”基于 DStteam 实 现 的 Spatk Stteaming 模 型 


7.2 DStream 操 作 


延续 7.1 节 Spark Streaming 的 工作 原理 以 及 DStream 的 编程 模型 ， 本 节 重 点 介绍 如 何 操作 DStream， 包 括 输入 、 转 换 、 状 态 和 输出 ; 由 于 操作 DStream 的 API 在 几 种 不 同 的 编程 语言 下 基本 相似 ， 仪 部 
分 细节 略 有 区 别 ， 本 节 只 介绍 Scala APl，Java 或 Python API 请 参考 AP| 文 档 。 


7.2.4 Input DStream 


Input DSteam 是 DStream 的 一 种 ， 它 是 从 流 式 数据 源 中 获取 的 原始 数据 流 ，Spark streaming 有 两 种 类 型 的 流 式 输入 数据 源 : 
1) 基本 输入 源 : 能 够 直接 应 用 于 StreamingContext API 的 输入 源 。 例 如 ， 文 件 系统 、 套 接 字 连 接 ， 以 及 Akka Actor, 
2) 高 级 输入 源 : 能 够 应 用 于 特定 工具 类 的 输入 源 。 例 如 ，Kafka、Flume、Kinesis、Twitter 等 ， 这 些 需 要 导入 一 些 额 外 的 依赖 包 。 


每 个 Input DStream (文件 流 除 外 ) 都 会 对 应 一 个 单一 的 接收 器 对 象 ， 该 接收 器 对 象 从 数据 源 接收 数据 并 且 存 入 Spark 的 内 存 中 进行 处 理 。 每 个 Input DStream 都 接收 一 个 单一 数据 流 。 值 得 注意 的 
， 在 streaming 应 用 程序 中 ， 可 以 创建 多 个 Input Dstream 并 行 接收 多 个 数据 流 。 


各 


每 个 接收 器 是 一 个 长 期 运行 在 Worket 或 者 Executor 上 的 任务 ， 因 此 它 将 占用 分 配给 Spark Streaming 应 用 程序 的 一 个 核 (core) 。 非 常 重要 的 一 点 是 ， 为 了 保证 一 个 或 者 多 个 接收 器 能 够 接收 数据 ， 需 
要 分 配给 Spark streaming 应 用 程序 足够 多 的 核 数 。 此 外 ， 也 需要 知道 以 下 要 点 : 


1) 当 分 配给 Spark Streaming 应 用 程序 的 核 数 小 于 或 者 等 于 Input DStreams (或 者 接收 器 ) 的 数量 时 ， 系 统 仍然 能 够 接收 数据 ， 但 是 却 没 有 能 力 全 部 处 理 。 


2) 运行 本 地 模式 时 ， 当 Master 的 URL 设 置 为 “Local” 模 式 时 ， 那 么 将 会 只 有 一 个 核 来 运行 任务 ， 对 于 程序 来 说 是 不 够 的 。 极 限 情况 下 ， 程 序 只 有 一 个 Input DStream 接 收 数据 ， 此 时 将 独占 这 一 个 
核 ， 因 此 程序 将 没有 多 余 的 核对 数据 进行 其 他 变换 操作 。 


Qua 如 果 输 入 是 文件 流 ， 则 不 存在 上 述 第 二 个 问题 ， 因 为 文件 流 不 需要 接收 器 工作 。 
1. 基 本 输入 源 
基本 输入 源 是 指 能 够 直接 应 用 于 StreamingContext API 的 输入 源 。 其 中 ， 核 心 Spark Streaming API 提 供 了 文件 ， 而 套 接 字 和 Akka Actor 创 建 DStream 作 为 输入 源 的 方法 ， 详 细 说 明 如 下 。 


1) 文件 流 ， 用 于 从 兼容 于 HDFS API 的 文件 系统 (如 HDFS、S3、NFS 等 ) 中 读 取 文件 中 的 数据 ，DStream 创 建 方法 如 下 : 


streamingContext.fileStream[KeyClass,ValueClass,InputFormatClass] (dataDirectory) 


Spark Streaming 将 监控 dataDirectory 目 录 ， 并 处 理 在 该 目录 中 创建 的 任何 文件 URSERHECE ERHRBUAAE) 。 
该 目录 中 的 文件 特点 如 下 : 

" 具有 相同 的 数据 格式 。 

- 通过 原子 移动 或 重 命名 文件 的 方式 在 dataDirectory 创 建 。 

` 一 旦 移动 这 些 文件 ， 将 不 能 修改 (如 果 在 文件 中 连续 地 追加 ， 新 的 数据 将 不 被 读 取 ) 。 
对 简单 的 文本 文件 而 言 ， 还 有 一 个 更 简单 的 方法 : streamingContext.textFileStream (dataDirectory) 。 
Qus 文件 流 不 需要 运行 接收 器 ， 因 此 不 需要 分 配 核 。 
2) 套 接 字 流 ， 通 过 监听 Socket 端 口 接收 数据 。 其 创建 方法 如 下 : 


// 创建 一 个 本 地 的 StreamingContext， 具 有 2 个 工作 线程 ， 且 批 次 间隔 1 秒 

val conf = new SparkConf () 

.SetMaster ("local[2]").setAppName ("NetworkWordCount") 

val ssc = new StreamingContext (conf, Seconds (1)) 

// 创建 一 个 DStream， 连 接 hostname:port， 类 似 localhost:9999 

val lines = ssc.socketTextStream("localhost", 9999) 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 


3) RDD 队 列 流 ， 使 用 streamingContext.queuestream (queueOfRDD) 创建 基于 RDD 队 列 的 DStream， 用 于 调试 Spark Streaming 应 用 程序 ， 以 下 是 创建 方法 : 


// 创建 Spark 配 置 文件 
val conf = new SparkConf ().setAppName ("QueueStream") 
// 创建 StreamingContext 
val ssc = new StreamingContext (conf, Seconds (1)) 
// 通过 能 够 Push 到 一 个 QueueInputDStream 的 RDDs 创 建 队列 
val rddQueue = new SynchronizedQueue [RDD[Int]] () 
// 创建 QueueInputDStream， 并 使 用 它 做 一 些 处 理 
val inputStream = ssc.queueStream(rddQueue) 
val mappedStream = inputStream.map(x => (x $ 10, 1)) 
val reducedStream = mappedStream.reduceByKey( + ) 
reducedStream.print () 
// 开始 ssc 
ssc.start () 
// 创建 并 Push 一 些 RDDs 
for (i «- 1 to 30) { 
rddQueue += ssc.sparkContext.makeRDD(1 to 1000, 10) 
Thread.sleep (1000) 


} 


ssc.stop() 
4) 自 定义 数据 源 ，Input DStream 也 可 以 创建 自 定义 数据 源 ， 需 要 实现 一 个 用 户 自 定义 的 接收 器 ， 可 以 从 自 定 义 源 接收 数据 并 推 给 Spark。 

2. 高 级 输入 源 
高 级 输入 源 依 赖 Spark 不 包含 的 库 ， 如 Kafka、Flume 等 。 为 了 避免 Spark 和 Kafka 等 的 依赖 jar 版 本 冲突 问题 ，Spark 将 这 些 输入 源 的 创建 方法 实现 在 独立 的 库 中 。 使 用 与 上 一 小 节 的 输入 源 略 有 不 同 。 
我 们 以 Kafka 数 据 源 为 例 介绍 高 级 输入 源 的 使 用 。 


首先 通过 在 工程 的 pom.xml (maven) 中 添加 如 下 内 容 : 


<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-streaming 2.10«/artifactlId» 
«version»1.5.0«/version» 

«/dependency» 


从 而 实现 添加 spark-streaming-kafka_2.10 的 依赖 。 


接着 在 代码 中 导入 KafkaUtils 类 并 创建 基于 Kafka 的 DStream， 代 码 如 下 : 


import org.apache.spark.streaming.kafka. 

val kafkaStream = KafkaUtils.createStream 

(streamingContext, [zookeeperQuorum], [group id of the consumer], [per-topic 
number of Kafka partitions to consume]) 


其 他 高 级 输入 源 以 及 独立 库 ， 如 表 7-1 所 示 。 


AUA 高 级 输入 源 以 及 独立 库 


数据 源 独立 库 


Kafka spark-streaming-kafka 2.10 

Flume spark-streaming-flume 2.10 

Kinesis spark-streaming-kinesis-as] 2.10 [Apache Software License] 
Twitter spark-streaming-twitter 2.10 

ZeroMQ spark-streaming-zeromq 2.10 

MOQTT spark-streaming-mgqtt 2.10 


7.2.0 ”DStream 转 换 操 作 


类 似 RDD 转 换 ，DStream 转 换 操 作 是 在 一 个 或 多 个 DStreams 上 创建 转换 后 的 新 DStream。DStream 支 持 多 种 转换 操作 ， 以 官方 提供 的 单词 计数 为 例 ， 实 现 从 TCP 套 接 字 输 入 的 数据 流 接收 数据 ， 并 进 
行 单词 计数 功能 。 在 运行 该 Streaming 应 用 程序 之 前 ， 需 要 先 运 行 Netcat (一 款 非常 简单 的 Unix 工 具 ， 可 以 读 、 写 TCP 或 UDP 网 络 连 接 ) 作为 数据 服务 器 ,如 下 所 示 : 


nc -1k 9999 


然后 ， 你 可 以 在 不 同 的 终端 中 运行 Spark Streaming 程 序 ， 完 整 的 程序 清单 如 下 : 


// &, 
package org.apache.spark.examples.streaming 
// 导入 类 
import org.apache.spark. SparkConf 
import org.apache.spark.streaming.(Seconds,StreamingContext] 
import org.apache.spark.storage.StorageLevel 
// 创建 对 象 
object NetworkWordCount { 
def main (args: Array[String]) { 
if (args.length < 2) { 
System.err.println( “Usage: NetworkWordCount <hostname><port>” ) 
System.exit (1) 
} 
// 设置 日 志 级 别 
StreamingExamples.setStreamingLogLevels () 
// 创建 StreamingContext， batch size 为 1 秒 
val sparkConf = new SparkConf ().setAppName( "NetworkWordCount" ) 
val ssc = new StreamingContext (sparkConf, Seconds (1)) 
// 在 ip:port 创 建 一 个 套 接 字 流 ， 统 计 输 入 流 的 单词 数目 
val lines = ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY AND DISK SER) 
val words = lines.flatMap( .split(" ")) 
val wordCounts = words.map(x => (x, 1)).reduceByKRey( + ) 
wordCounts.print () 
ssc.start () 
Ssc.awaitTermination() 
) 
} 


上 面 是 一 个 完整 的 Streaming 程 序 代 码 ， 其 中 用 到 的 转换 操作 有 : 

1) map (func) 转换 ， 将 每 个 单词 转换 成 (单词 ，1) 的 形式 ,得 到 MappedDStream 形 式 的 DStream。 

2) flatMap (func) 转换 ， 类 似 于 map， 将 每 行 数据 以 空格 切 分 成 单词 ， 并 输出 多 个 新 记录 ， 得 到 FlatMappedDStream 形 式 的 DStream.。 
3) reduceByKey (func, [numTasks]) ， 将 相同 单词 的 值 (计数) 聚合 到 一 起 ， 此 处 reduceByKey 操 作 得 到 的 是 ShuffledDStream。 

以 上 运用 了 三 个 转换 操作 ， 表 7-2 列 出 了 更 多 DStream 支 持 的 常见 Spark RDD 转 换 操 作 。 


表 7-2 常见 的 转换 操作 
转换 操作 $ X 


map(func jB 新 tream， 由 每 一 个 输入 元 隶 经 过 func RAAG JS EH b 
(f 入 回 一 个 新 的 DS | $ f 数 转换 后 组 成 
类 似 于 map， 但 是 每 一 个 输入 元 紊 a 以 WEBS Osc-Tsd7uss (因此 


flatMap(func) 
MANE func Ju 123 [n]- AE 列 ， 而 不 是 单一 元 对 ) 
mE 返回 一 个 新 的 DStream， 由 经 过 fune 困 数 计算 后 返回 值 为 true BAgALJU3R 
filter(func) T 
组 成 
repartiton(numPartition) 通过 创建 较 多 或 较 少 的 分 区 ， 改 变 DStream 的 并 行程 度 
union(otherStream) 返回 一 个 新 的 DStream, £225 18 DStream 和 其 他 DStream 的 元 又 
count() 统计 源 DStream 中 每 个 RDD 元 素 的 个 数 
对 源 DStream 中 的 每 个 RDD 执行 func 肾 数 (两 个 输入 参数 ， 一 个 输出 结 
reduce(func) R) 进行 聚合 操作 ， 返 回 一 个 单元 素 RDD 的 新 的 DStream (该 图 数 必 须 满 足 
结合 律 ， | func(func(a, b), c) == func(a, func(b, c))， 从 而 能 并 行 计算 ) 
XT K 28857038 8 DStream, 18 EEA (KiLong) 键 但 对 的 新 DStream, H: 
countB y Value() M — PREN Teci 
中 每 个 sita 建 在 源 DStream 中 每 个 RDD 中 出 现 的 次 数 


当 调 用 一 个 (KV) 健 值 对 类 型 的 DStream 时 ， 返 回 一 个 新 的 (KV) E A 
reduceByKey(func, [numTasks]) 类 型 的 DStream， 这 里 键 (K) 不 发 生变 化 ， 而 新 的 值 (WV) 则 是 由 reduce 函数 
(func) 聚合 后 得 到 ， 这 里 numTasks 是 可 选 参数 ， 用 来 设置 任务 的 数量 

当 调 用 (K. V) 键 值 对 类 型 和 (K, W) 键 值 对 类 型 的 两 个 DStream 时 ， 

个 (CV, W) 键 全 对 类 型 的 新 的 DStream 

当 调 用 CK, V) EINA (K, W) 键 值 对 类 型 的 两 个 DStream 时 ， 
回 一 个 CK, Seq[V]. Seq[W]) 元 组 的 新 DStream 

通过 给 源 DStream 的 每 个 RDD 应 用 一 个 RDD-to-RDD RARI, 3& [E] 
Hj DStream, IREA DStream 做 任意 RDD 操作 


join(otherStream, [numTasks|) 


cogroup(otherStream, [numTasks |) 


transform(func) 


其 中 ，Transform 操 作 人 允许 在 一 个 Dstream 上 进行 RDD 到 RDD 的 操作 ， 如 对 DSstream 流 中 的 RDD 和 另外 一 个 数据 集 进 行 Join 操 作 。 虽 然 DStream 的 API 没 有 直接 暴露 出 来 ， 但 是 依然 可 以 使 用 转换 轻松 
做 到 这 一 点 。 


考虑 如 下 场景 ， 每 天 都 有 大 量 的 微 博 产 生 ， 而 一 部 分 微 博 内 容 里 包含 不 文明 用 语 等 ， 我 们 需要 对 微 博 内 容 进 行 实 时 筛选 ， 不 再 让 其 传播 。 假 设 我 们 通过 对 文本 内 容 的 挖掘 已 经 得 到 了 “不 文明 用 语 ” 的 


数据 --spamlnfoRDD。 此 时 将 输入 数据 流 进 行 Join 连 接 ， 然 后 标记 ， 以 便 进 行 下 一 步 操作 。 实 例 代 码 如 下 : 


// 包含 垃圾 信息 的 RDD 

val spamInfoRDD = ssc.sparkContext.newAPIHadoopRDD (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...) 
val dirtyDStream = log.map(rdd => { 
// 连接 包含 垃圾 信息 的 RDD， 进 行 数据 筛选 工作 
rdd.join (spamInfoRDD) . filter (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...)  http://www.hzcourse.com/resource/reac 


)) 


1.2.3 DaStream 状 态 操 作 
状态 操作 是 数据 的 多 批 次 操作 之 一 ， 包 括 所 有 基于 Window (窗口 ) 的 操作 和 update-StateByKey 操 作 。 下 面 针 对 Window 操 作 和 updateSstateByKey 进 行 说 明 。 
1.window 计 算 


Spark Streaming 提 供 了 基于 Window 的 计算 ， 人 允许 通过 滑动 窗口 对 数据 进行 转换 。 图 7-4 说 明了 滑动 窗口 的 计算 过 程 ， 当 窗口 在 Original DSstream 按 定义 的 时 间 间 隔 滑动 时 ， 落 入 窗口 内 的 RDD 被 视 
为 一 个 个 窗口 化 的 DStream。 因 此 ， 任 何 窗口 操作 都 需要 指定 两 个 重要 参数 : 


1) 窗口 长 度 (window length) ， 窗 口 的 持续 时 间 。 
2) 滑动 窗口 时 间 间 隔 (slide interval) ， 执 行 基于 窗口 操作 计算 的 时 间 间 隔 。 


注意 : 这 两 个 参数 必须 是 源 DStream 批 处 理 间 隔 的 倍数 。 


Time 1 Time 2 Time 3 Time 4 Time 5 


li: DStream | [ ] [ ] 


Window 计算 
后 的 DStream 


IRAE 1 时 的 上 时 上 国 在 3 时 的 时 间 在 5 时 的 
窗口 Tai LI 窗口 


参考 图 7-4 滑 动 窗 口 的 计算 ， 假 设 批 处 理 时 间 间 隅 为 10 秒 ， 目 标 间隔 为 20 秒 ， 后 30 秒 的 单词 计数 ， 可 以 使 用 下 面 的 语句 : 


val windowedWordCounts = pairs.reduceByKeyAndWindow((a:Int,b:Int) => (a + b), 
Seconds (30), Seconds (10)) 


Spark Streaming 还 提供 了 其 他 基于 窗口 的 操作 ， 具 体 如 表 7-3 所 示 。 
表 7-3 常见 基于 窗口 的 操作 
转换 操作 & M 
window(windowLength, slideInterval) 返回 一 个 基于 源 DStream 窗口 化 的 新 的 DStream 


countByWindow(windowLength.|  、 ER 
退回 一 个 流 中 元 系 的 请 动 窗口 计数 


slideInterval) 
reduceByWindow(func, windowLength,| 返回 一 个 新 的 流 ， 该 流 在 请 动 间 卫 使 用 fune 函数 聚合 流 中 元 素 。 该 限 
slideInterval) 数 必 须 满 足 结合 律 ， 以 方便 进行 并 行 计算 
当 在 一 个 (K,V) 键 值 对 DStream 上 进行 二 用时， 返回 一 个 新 的 (K, V) 


健 值 对 DStream， 其 中 每 个 键 的 值 根 据 给 定 的 Teduce PRX x iE—^ 8 
reduceByKeyAndWindow(func, | 动 窗口 4 此 次 进行 聚合 ; 
windowLength, slideInterval, [(numTasks]) | 默认 情况 下 ， 该 图 数 使 用 Spark SAIAJETTTESE AX (Local 模式 时 为 2 ; 
Cluster 模式 时 ， 该 值 是 由 配置 属性 spark.default.parallelism 决定 ) 进行 分 
组 。 可 以 设置 可 选 的 numTasks 参数 来 指定 任务 数 


— 
Mb 


转换 操作 € X 

"EPI reduceByKeyAndWindow, 4T f4 HH] Reduce 值 是 通过 先前 
和 窗口 的 Reduce (E38 TES (3 8E BS 
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昌 作 实现 的 。 可 以 使 用 键 的 “加 ”和 “ 减 ” 数 目 作 为 滑动 窗口 的 数量 

[只 能 用 于 “可 着 reduce K% ， 即 那些 reduce ARA — ToS HJ "33 
reduce PKŠ (LJ InvFunc 参数 传人 ) 

countBy ValueAndWindow(windowLen 当 调 用 一 个 (KV) 键 全 对 的 DStream - ha ! -个 新 的 (K; Long) 键 值 
eth, slideInterval. [numTasks]) 对 的 DStream, EH, &SETHEBJHBOERAE— T 8 29] f P En] ji 258 


reduceByKeyAndWindow(func. 
invFunc,windowLength, slideInterval, 


[numTasks |) 


2.updateStateByKey 操 作 


updatestateByKey 操 作 应 用 给 定 函数 func 的 原状 态 和 新 值 ， 返 回 一 个 新 “状态 ”的 Dstream， 该 状态 可 以 为 任何 值 。 使 用 updatestateByKey 操 作 ， 我 们 希望 保留 Key 的 状态 信息 ， 并 能 持续 进行 更 
新 ; 使 用 此 功能 有 如 下 两 个 步骤 : 


1) 定义 状态 ， 这 个 状态 可 以 是 任意 的 数据 类 型 。 
2) 定义 状态 更 新 函数 ， 应 用 给 定 函 数 从 原状 态 和 新 值 更 改 新 的 状态 。 


例如 ， 假 设想 维护 可 见 的 文本 数据 流 中 单词 的 运行 计数 ， 状 态 是 运行 计数 ， 每 次 新 增 一 个 整数 ， 可 以 定义 更 新 功能 


val updateFunc = (values: Seq[Int], state: Option[Int]) => ( 
val currentCount = values.foldLeft(0)( + ) 
val previousCount = state.getOrElse (0) 
Some (currentCount + previousCount) 


此 函数 被 应 用 在 包含 (word，1) 的 DSstream 当 中 ， 针 对 每 个 word 调 用 一 下 更 新 国 数 ，currentCount 是 最 新 的 值 ，previousCount 是 之 前 的 值 。 


7.2.4 ”DStream 输 出 操作 


输出 操作 将 DStream 的 数据 输出 到 外 部 系统 ， 如 数据 库 或 者 文件 系统 。 实 际 上 ， 输 出 操作 作用 于 DStream 后 ， 外 部 系统 才能 使 用 这 些 数据 ， 触 发 所 有 的 DStream 变 换 实际 执行 ， 这 一 点 与 RDD 的 执行 
(action) 类 似 。 


回顾 下 7.2.2 节 中 单词 计数 的 例子 ， 为 了 方便 开发 和 调试 ， 我 们 可 以 在 Driver 上 打印 Dstream 中 的 数据 ， 通 过 简单 调用 print () 方法 就 能 打印 每 一 批 Dstream 中 的 前 10 个 元 素 。 
接 下 来 介绍 如 何 将 结果 wordCounts 存 储 到 不 同 外 部 系统 中 。 


1) 使 用 saveAsObjectFiles (prefix, [suffix]) ， 将 Dstream 中 的 内 容 保存 为 文本 文件 ， 如 果 使 用 saveAsHadoopFiles， 则 保存 到 HDFS 系 统 上 。 


wordCounts.saveAsTextFiles ("file:///words/TextFiles") 


2) 使 用 foreachRDD (func) ， 对 Dstream 中 的 每 个 RDD 执 行 func 函 数 ， 并 将 结果 保存 到 外 部 系统 ， 如 保存 RDD 到 文件 中 ， 或 写 入 数据 库 。 


wordCounts.foreachRDD(rdd => 
rdd.foreach (println) 
// TODO store data to hbase 


Dstream 的 foreachRDD 是 一 个 功能 非常 强大 的 原 语 ， 用 于 将 数据 发 送 到 外 部 系统 。 为 了 避免 使 用 错误 ， 现 对 其 如 何 使 用 进行 总 结 
1) 在 Worker 上 创建 连接 对 象 ， 避 免 在 Driver 上 创建 连接 对 象 而 产生 跨 机 器 转换 。 
2) 使 用 foreachPartition 创 建 一 个 单独 的 连接 对 象 ， 并 使 用 该 连接 发 送 在 RDD 分 区 的 所 有 记录 ， 避 免 为 每 一 条 记录 创建 一 个 连接 对 象 ， 引 起 不 必要 的 开销 。 


3) 采取 能 够 保持 连接 对 象 的 静态 池 ， 比 起 能 够 作为 多 批 次 RDD 推 送 到 外 部 系统 进行 重用 ， 能 进一步 降低 开销 。 


dstream.foreachRDD(rdd => { 
rdd.foreachPartition(partitionOfRecords => { 
// ConnectionPool 是 静态 的 且 延 迟 初 始 化 的 一 个 连接 池 
connection = ConnectionPool.getConnection () 
titionOfRecords.foreach(record => connection.send (record) ) 
// 将 连接 还 给 连接 地 
ConnectionPool.returnConnection (connection) 
)) 
)) 


需要 引起 注意 的 是 ， 在 池 中 的 连接 应 该 至 少 满足 以 下 两 个 特性 : 按 需 延 迟 创 建 (be lazily created on demand) 和 超时 自动 释放 (一 段 时 间 不 使 用 ) (timed out if not used for a while) ， 从 而 实 
现 高 效 地 将 数据 发 送 到 外 部 系统 。 


其 他 需要 关注 的 点 : 


1) 类 似 RDD Action 的 延迟 执行 ，Dstream 由 输出 操作 决定 延迟 执行 。Dstream 输 出 操作 的 RDD Action 处 理 接收 到 的 数据 。 因 此 ， 如 果 程 序 没有 任何 输出 操作 ， 或 者 像 dstream.foreachRDD () 的 
操作 ， 那 么 系统 只 是 简单 地 接收 数据 并 进行 丢弃 


2) 默认 情况 下 ， 输 出 操作 一 次 执行 一 个 ， 并 且 根 据 在 应 用 程序 中 定义 的 顺序 执行 。 


7.2.5 ”缓存 及 持久 化 


与 RDD 一 样 ，Dstream 可 以 将 流 中 数据 持久 化 在 内 存 中 ， 通 过 调用 persist () 方法 可 以 自动 把 DStream 中 的 每 一 个 RDD 存 储 在 内 存 中 。 需 要 注意 的 是 ，DStream 的 持久 化 策略 是 将 数据 序列 化 在 内 存 
中 ， 序 列 化 和 反 序 列 化 均 会 导致 更 多 的 CPU 开销 。 


基于 窗口 或 状态 的 操作 ， 如 reduceByWindow、reduceByKeyAndWindow 和 updateStateByKey，DStream 都 会 自动 持久 化 在 内 存 中 ， 无 须 显 式 地 调用 persist () 方法 。 


过 网 络 接收 的 流 数 据 (如 Kafka、Flume、Sockets、ZeroMQ 和 RocketMQ 等 ) 默认 采取 保存 两 份 序列 化 后 的 数据 在 两 个 不 同 的 节点 上 的 持久 化 策略 ， 从 而 实现 容错 


7.2.6 ”检查 点 


一 个 Streaming 应 用 程序 要 求 7 天 24 小 时 不 间断 运行 ， 因 此 必须 适应 各 种 导致 应 用 程序 失败 的 场景 。Spark streaming 的 检查 点 具有 容错 机 制 ， 有 足够 的 信息 能 够 支持 故障 恢复 。 支 持 两 种 数据 类 型 的 检 
查 点 : 元 数据 检查 点 和 数据 检查 点 。 


1) 元 数据 检查 点 ， 在 类 似 HDFS 的 容错 存储 上 ， 保 存 Streaming 计 算 信息 。 这 种 检查 点 用 来 恢复 运行 streaming 应 用 程序 失败 的 Driver 进 程 。 


2) 数据 检查 点 ， 在 进行 跨越 多 个 批 次 合并 数据 的 有 状态 操作 时 尤其 重要 。 在 这 种 转换 操作 情况 下 ， 依 赖 前 一 批 次 的 RDD 生 成 新 的 RDD， 随 着 时 间 不 断 增加 ，RDD 依 赖 链 的 长 度 也 在 增加 ， 为 了 避免 这 
种 无 限 增加 恢复 时 间 的 情况 ， 通 过 周期 检查 将 转换 RDD 的 中 间 状 态 进行 可 靠 存 储 ， 借 以 切断 无 限 增加 的 依赖 链 。 使 用 有 状态 的 转换 ， 如 果 updatestateByKey 或 者 reduceByKeyAndWindow 在 应 用 程序 中 
使 用 ， 那 么 需要 提供 检查 点 路 径 ， 对 RDD 进 行 周 期 性 检查 。 


元 数据 检查 点 主要 用 来 恢复 失败 的 Driver 进 程 ， 而 数据 检查 点 主要 用 来 恢复 有 状态 的 转换 操作 。 无 论 是 Driver 失 败 ， 还 是 Worker 失 败 ， 这 种 检查 点 机 制 都 能 快速 恢复 。 许 多 Spark Streaming 都 是 使 用 
检查 点 方式 。 但 是 简单 的 Streaming 应 用 程序 ， 不 包含 状态 转换 操作 不 能 运行 检查 点 ;从 Driver 程 序 故 障 中 恢复 可 能 会 造成 一 些 收 到 没有 处 理 的 数据 丢失 。 


为 了 让 一 个 Spark Streaming 程 序 能 够 被 恢复 ， 需 要 启用 检查 点 ， 必 须 设置 一 个 容错 的 、 可 靠 的 文件 系统 (如 HDFS、S3) 路 径 保存 检查 点 信息 ， 同 时 设置 时 间 间 隔 。 


streamingContext.checkpoint (checkpointDirectory) 
dstream. checkpoint (checkpointInterval)// 设置 检查 点 间隔 


当 程 序 第 一 次 启动 时 ， 创 建 一 个 新 的 StreamingContext， 接 着 创建 所 有 的 数据 流 ， 然 后 再 调用 start () 方法 。 


/ t 定义 一 个 创建 并 设置 StreamingContext 的 函数 
F functi nloo ree teContext(): StreamingContext = { 


val ssc = new StreamingContext (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...) // 创建 StreamingContext 实 例 
val lines = ssc.socketTextStream(http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...) // 创建 DStream 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 

ssc.checkpoint (checkpointDirectory) // 设置 检查 点 目录 


SSC 


} 

// 从 检查 点 数据 重建 或 者 新 建 一 个 StreamingContext 

val context = StreamingContext.getOrCreate (checkpointDirectory, functionToCreate-Context ) 

// 在 context 需 要 做 额外 的 设置 完成 ,不 考虑 是 否 被 启动 或 重新 启动 

context. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/0 
// 局 动 context 

context.start () 

context.awaitTermination () 


EBPS/Text/... 


通过 使 用 getOrCreate 创 建 StreamingContext。 
当 程 序 因为 异常 重启 时 ， 如 果 检 查 点 路 径 人 存在 ， 则 context 将 从 检查 点 数据 中 重建 。 如 果 检 查 点 目录 不 人 存在 (首次 运行 ) ， 将 会 调用 functionToCreateContext 国 数 新 建 context， 并 设置 DSstream。 


但 是 ，Streaming 需 要 保存 中 间 数 据 到 容错 存储 系统 ， 这 个 策略 会 引入 存储 开销 ， 可 能 会 导致 相应 的 批 处 理 时 间 变 长 ， 因 此 ， 检 查 点 的 时 间 间 隔 需 要 精心 设置 。 采 取 小 批 次 时 ， 每 批 次 检查 点 可 以 
显著 减少 操作 的 吞吐 量 ; 相反 ,检查 点 太 少 可 能 会 导致 每 批 次 任务 大 小 的 增加 。 对 于 RDD 检 查 点 的 有 状态 转换 操作 ， 其 检查 点 间隔 默认 设置 为 DStream 的 滑动 间隔 的 倍数 ， 至 少 为 10 秒 。 通 常 ， 一 个 检查 点 
时 间 间 隔 设 置 成 DStream 的 滑动 间隔 的 5~10 倍 。 


故障 恢复 可 以 使 用 Spark 的 Standalone 模 式 自 动 完成 ， 该 模式 允许 任何 Spark 应 用 程序 的 Driver 在 集群 内 启动 ， 并 在 失败 时 重启 。 而 对 于 YARN 或 Mesos 这 样 的 部 署 环境 ， 则 必须 通过 其 他 的 机 制 重启 


Driver, 


7.3 ”性 能 调 优 


要 想 Spark Streaming 应 用 程序 在 集群 中 获得 最 佳 性 能 实践 ， 需 要 对 一 些 参数 进行 调 优 。 重 点 需要 考虑 以 下 两 件 事情 : 
" 有 效 使 用 集群 资源 ， 减 少 每 批 次 数据 的 处 理 时 间 。 


* 设置 合理 的 窗口 大 小 ， 从 而 使 数据 尽 可 能 快 地 得 到 处 理 ( 即 数据 处 理 和 数据 接收 节奏 一 致 ) 。 


7.3.1 优化 运行 时 间 
优化 运行 时 间 可 以 降低 每 个 批 次 数据 的 处 理 时 间 ， 主 要 包括 : 提升 数据 接收 和 处 理 的 并 行 度 ， 减 少 序列 化 和 反 序 列 化 负担 ， 优 化 内 存 使 用 ， 减 少 任务 提交 和 分 发 开销 。 


1. 提 升 数据 接收 的 并 行 度 


通过 网 络 接收 数据 (如 Kafka、Flume、 和 套 接 字 等 ) 需要 将 数据 反 序 列 化 并 存储 在 Spark 上 ， 如 果 数 据 接收 成 为 系统 中 的 瓶颈 ， 则 需要 并 行 接收 数据 。 主 要 通过 提升 Receiver 的 并 发 度 和 调整 Receiver 的 
RDD 数 据 分 区 时 间隔 。 


提升 Receiver 的 并 发 度 : 在 Worker 节 点 上 对 每 个 输入 DStream 创 建 一 个 Receiver 并 运行 ， 以 接收 一 个 数据 流 。 通 过 创建 多 个 输入 DStream 并 配置 从 数据 源 接收 不 同 分 区 的 数据 流 ， 从 而 实现 接收 多 数据 
流 。 例 如 ， 一 个 单 Kafka 输 入 DStream 接 收 两 个 主题 的 数据 ， 可 以 分 成 两 个 Kafka 的 输入 流 ， 每 个 仅仅 接收 一 个 主题 。 输 入 DStream 运 行 在 两 个 Worker 节 点 的 接收 器 上 ， 从 而 能 够 并 行 接 受 并 行 ， 提 高 整体 
的 吞吐 量 。 


多 Dastream 可 以 通过 联合 (union) 在 一 起 从 而 创建 一 个 DStream， 这 样 一 些 应 用 在 一 个 输入 DStream 的 转换 操作 便 可 以 用 在 联合 后 的 DStream 上 。 


valnumStreams=5 
valkafkaStreams- (ltonumStreams) .map{i=>KafkaUtils.createStream (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/0EBPS/Text/...)} 


valunifiedStream=streamingContext .union (kafkaStreams) 
unifiedStream.print () 


调整 Receiver 的 RDD 数 据 分 区 时 间隔 : 通过 修改 spark.streaming.blocklnterval 这 个 property 的 参数 调整 Receiver 的 blocking interval。 对 于 大 多 数 的 Receiver， 接 收 到 的 数据 要 合并 成 大 的 数据 块 ， 
然后 存储 在 Spark 的 内 存 中 。 


每 批 次 的 数量 决定 任务 的 数量 ， 这 些 任务 用 来 处 理 那些 接收 到 的 数据 ， 即 进行 “类 Map” 的 转换 。 每 个 Receiver 每 批 次 的 任务 数目 大 约 为 (batch interval/block interval) 。 例 如 ，200 毫 秒 的 block 
interval 将 会 在 每 2 秒 的 批 次 创建 10 个 任务 。 


任务 数量 太 少 ， 会 导致 有 的 核 闲 置 ， 未 用 来 处 理 数 据 ， 造 成 效率 低下 。 针 对 一 个 给 定 批 次 间隔 的 情况 ， 若 要 提升 任务 数 ， 则 需要 降低 block interval。 推 荐 的 block interval 最 小 值 是 50 毫 秒 ， 实 际 使 用 
中 如 果 以 最 小 值 进行 任务 加 载 ， 则 开销 将 会 存在 问题 。 


2. 提 升 数据 处 理 的 并 行 度 


如 果 在 任务 执行 阶段 使 用 并 行 任务 的 数目 不 够 高 ， 则 会 造成 集群 资源 利用 低下 。 例 如 ， 分 布 式 Reduce 操 作 ， 如 reduceByKey 和 reduceByKeyAndWindow， 并 行 任务 的 默认 数量 由 
spark.default.parallelism 的 配置 属性 决定 。 


确保 均衡 地 使 用 整个 集群 的 资源 ， 而 不 是 把 任务 集中 在 几 个 特定 的 节点 上 。 对 于 包含 shuffle 的 操作 ， 增 加 其 并 行 度 以 确保 更 为 充分 地 使 用 集群 资源 。 
3. 数 据 序列 化 
数据 序列 化 的 开销 会 很 大 ， 特 别 是 要 实现 亚 秒 级 (sub-second) 批 次 大 小 ， 数 据 序列 化 主要 包括 两 个 方面 。 
- RDD 数 据 序列 化 : 默认 情况 下 RDD 被 保存 为 序列 化 字 节 数组 来 减少 GC 停顿 。 
“ 输入 数据 序列 化 : 将 获取 的 外 部 数据 插入 Spatk， 接 收 到 的 数据 为 字 节 型 ， 需 要 反 序 列 化 为 Spatk 的 序列 化 格式 。 因 此 ， 输 入 数据 的 反 序 列 化 开销 可 能 会 成 为 一 个 瓶颈 。 
Spark streaming 默 认 将 接收 到 的 数据 序列 化 存储 ， 以 减少 内 存 的 使 用 。 序 列 化 和 反 序 列 化 需要 更 多 的 CPU 时 间 ， 更 加 高 效 的 序列 化 方式 (Kryo) 和 自 定义 的 序列 化 接口 可 以 更 高 效 地 使 用 CPU。 
4 .任务 启动 开销 


通常 情况 下 Akka 框 架 能 够 高 效 地 确保 任务 及 时 分 发 ， 但 当 Batch 间 隔 非 常 小 (500 毫 秒 ) 时 ， 提 人 交 和 分 发 任务 的 延迟 就 变 得 不 可 接受 。 任 务 启动 开销 进行 的 任务 太 多 也 不 好 ， 比 如 每 秒 50 个 ， 发 送 任务 
的 负载 就 会 变 得 很 重要 ， 很 难 实现 亚 秒 级 的 时 延 。 开 销 可 以 通过 以 下 两 种 方式 减少 。 


1) 任务 序列 化 : 使 用 Kryo 序 列 化 ， 序 列 化 的 任务 可 以 减少 任务 的 大 小 ， 因 此 减少 了 发 送 到 节点 的 时 间 。 

2) 执行 模式 : 在 standalone 模 式 或 粗 粒 度 Mesos 的 模式 下 运行 Spark， 相 比 细 粒 度 模 式 有 着 更 低 的 延迟 。 
7.3. ”设置 合适 的 批 次 大 小 

在 进行 合适 的 批 次 大 小 设置 之 前 ， 我 们 先 熟悉 几 个 关键 词 。 

- 批 次 处 理 时 间 (the batch processing time). ， 是 指 每 批 次 数据 的 处 理 时 间 ; 

: 批 次 间隔 时 间 (the batch interval) ， 是 指 两 个 批 次 处 理 的 间隔 时 间 。 

: 数据 速率 (datarate) ， 是 指数 据 在 集群 上 处 理 速 率 。 


为 了 确保 Spark streaming 应 用 程序 能 够 在 集群 稳定 地 运行 ， 系 统 应 该 能 够 尽 可 能 快 地 处 理 接收 到 的 数据 。 换 句 话说， 处 理 数据 的 速度 要 跟 上 数据 流入 的 速度 ， 或 者 至 少 应 该 一 样 快 。 处 理 数据 的 速度 
对 应 批 次 处 理 时 间 ， 而 批 次 间隔 时 间 设 置 数据 流入 的 速度 ， 批 次 处 理 时 间 应 该 小 于 批 次 间隔 时 间 。 


根据 streaming 流 计算 的 性 质 ， 批 次 间隔 时 间 可 以 用 一 组 固定 的 集群 资源 对 应 用 程序 持续 影响 。 批 次 间隔 时 间 设 置 要 充分 考虑 到 预期 的 数据 速率 是 否 稳定 。 
如 何 设置 合 理 的 批 次 大 小 呢 ? 
首先 设置 Batch size ( 批 次 大 小 ) 为 5?~10 秒 和 一 个 很 低 的 数据 输入 速度 。 确 定 系统 能 跟 上 数据 输入 速度 时 ， 可 以 根据 经 验 调整 批 次 大 小 ， 通 过 查看 日 志 获 知 Total delay (总 延迟 ) 为 多 长 时 间 。 


如 果 Delay (延迟 时 间 ) 小 于 Batch ( 批 处 理 时 间 ) ， 那 么 系统 是 稳定 的 ;如 果 Delay 一 直 增 加 ， 说 明 系统 的 处 理 速 度 跟 不 上 数据 的 输入 速度 。 


7.3.3 ”优化 内 存 使 用 


针对 Spark 应 用 程序 内 存 使 用 和 GC 行为 ， 本 部 分 侧重 突出 讲解 一 些 如 何在 自 定义 Spark Streaming 应 用 调 优 一 些 参 数 ， 优 化 内 存 使 用 。 
(1) 合理 设置 DStream 存 储 级 别 


与 RDD 不 同 ，RDD 上 默认 持久 化 级 别 是 MEMORY_ONLY， 而 DStream 上 默认 持久 化 级 别 是 MEMORY_ONLY_SER， 尽 管 保持 数据 序列 化 会 带 来 更 高 的 序列 化 、 反 序列 化 开销 ， 但 大 大 减少 了 GC 出 现 停 顿 的 
情况 。 


(2) 及 时 清理 持久 化 的 RDD 


streaming 会 将 接收 到 的 数据 全 部 存储 于 可 用 的 内 存 区 域 中 ， 因 此 对 于 已 经 完成 过 处 理 的 数据 应 及 时 清理 ， 以 确保 streaming 有 足够 的 内 存 。 默 认 情况 下 ， 所 有 streaming 生 成 的 持久 化 RDD 的 清理 会 
使 用 内 置 的 内 存 清理 策略 LRU (Least Recently Used) ; 通过 设置 spark.cleaner:ttl 的 值 ，Streaming 就 能 自动 地 定期 清除 旧 的 内 容 。 也 可 以 通过 设置 spark.streaming.unpersist 属 性 启用 内 存 清理 ， 减 少 
Spark RDD 内 存 的 使 用 ， 提 升 GC 性 能 。 


(3) 并 发 垃圾 收集 策略 


GC 会 影响 任务 的 正常 运行 ， 任 务 执行 时 间 的 延长 ， 会 引起 一 系列 不 可 预料 的 问题 。 采 取 不 同 的 GC 策略 可 以 进一步 减 小 GC 对 Job 运 行 的 影响 。 例 如 ,使 用 并 行 mark-and-sweep GC 能 减少 GC 的 突然 暂 
停 的 情况 ， 另 外 也 可 以 以 降低 系统 的 吞吐 量 为 代价 来 获得 最 短 GC 停顿 。 


74 ”容错 处 理 


Streaming 的 数据 转换 都 是 基于 Spark RDD 的 操作 ， 因 此 ， 在 探讨 Streaming 容 错 处 理 之 前 ， 先 回顾 一 下 SparkRDD 的 基本 容错 特性 ， 主 要 包括 : 
: RDD 是 不 可 变 的 、 确 定 的 、 可 以 重新 计算 的 分 布 式 数据 集 ， 每 个 RDD 在 数据 集中 创建 并 记录 操作 的 先后 顺序 (Lineage) 。 
如 果 RDD 任 何 分 区 的 Wotker 节 点 出 现 故 障 而 丢失 ， 那 么 分 区 可 以 从 历史 的 容错 数据 集中 使 用 记录 的 先后 顺序 (Lineage) 重新 计算 。 
- 如 果 所 有 的 RDD 转 换 操 作 是 确定 的 ， 最 后 转换 RDD 的 结果 数据 将 保持 不 变 。 


Spark Streaming 基 于 容错 的 故障 处 理 主要 包括 : 文件 输入 源 、 基 于 Receiver 的 输入 源 ， 以 及 输出 操作 。 


7.4.1 ”文件 输入 源 


如 果 全 部 输入 数据 在 一 个 有 容错 的 文件 系统 (类似 HDFS 或 53) 中 ， 显 而 易 见 ， 由 于 输入 数据 是 以 可 靠 的 形式 存储 ， 所 有 生成 结果 数据 的 中 间 数 据 都 可 以 重新 计算 ， 所 有 基于 容错 数据 生成 的 RDD 也 具 
有 容错 特性 。 


Spark streaming 能 够 从 任何 失败 中 恢复 ， 并 重新 计算 所 有 的 数据 ， 因 此 故障 不 会 导致 数据 丢失 。 


当 故 障 发 生 时 ， 由 于 转换 过 程 中 的 数据 没有 备份 ， 只 能 从 输入 数据 集中 获取 数据 进行 恢复 。 
7.4.0 ”基于 Receiver 的 输入 源 


使 用 通过 网 络 接收 数据 的 输入 源 (如 Kafka 和 Flume) ,为 了 获取 相同 的 容错 特性 ， 接 收 到 的 输入 数据 会 被 复制 到 集群 中 节点 的 内 存 中 (默认 的 复制 因子 为 2) 。 根 据 失败 场景 和 接收 器 类 型 进行 容错 ， 
主要 有 两 种 类 型 的 接收 器 : 


1) 可 靠 的 接收 器 (reliable receiver) ， 这 些 接 收 器 确保 接收 到 的 数据 备份 并 获得 认可 ; 如 果 一 个 接收 器 失败 ， 数 据 源 不 会 发 送 数据 ， 只 有 当 接 收 器 重启 时 ， 数 据 源 才 重新 进行 数据 发 送 ， 不 会 导致 数 
据 丢 失 。 


2) 不 可 靠 的 接收 器 (unreliable receiver) ， 当 Worker 节 点 或 Driver 节 点 失败 时 ， 该 接收 器 可 能 会 导致 数据 丢失 。 

数据 是 否 会 丢失 ， 取 决 于 使 用 什么 类 型 的 接收 器 。 

如 果 一 个 Worker 节 点 失败 ， 使 用 可 靠 的 接收 器 ， 将 不 会 产生 数据 和 去 失 ; 如 果 使 用 不 可 靠 的 接收 器 ， 接 收 数据 没有 备份 ， 可 能 会 产生 丢失 。 

如 Driver 节 点 失败 ， 除 了 接收 数据 丢失 之 外 ， 所 有 接收 和 备份 在 内 存 中 的 历史 数据 全 部 丢失 ， 直 接 影响 状态 转换 的 结果 

如 果 运 行 Spark Streaming 应 用 程序 的 Driver 节 点 失败 ， 很 明显 SparkContext 将 丢失 ， 那 么 全 部 Executors 内 存 中 的 数据 将 会 丢失 。 

为 了 避免 丢失 全 部 的 历史 数据 ， 从 Spark 1.2 开 始 ， 接 收 数据 进行 容错 存储 ， 并 提前 写 日 志 (write ahead log) ， 用 来 实现 零 数据 丢失 ， 表 7-4 列 出 了 常见 故障 场景 。 


表 7-4 常见 故障 


部 署 场景 Worker 失败 Driver 失败 
没有 write ahead log| 不 可 徘 接收 项 上 FER; 可 靠 接 收 吉 和 | O dupAER SJ ihi FI Ae pz c es A 
Spark 1.2 or later 文件 输入 去 数据 丢 历史 数据 丢失 ; 文件 输入 去 数据 丢失 


HA write ahead log BH £n-2 ug 
" JE TÉ: X3 ET. FI TH 输 A TUN VETES 失 ul T Hz AC 和 X TE TU du 


Spark 1.2 or later 


7.4.3 ”输出 操作 


由 于 所 有 数据 都 以 RDD 操 作 的 血统 形式 存在 ， 任 何 重复 计算 都 会 得 到 相同 的 结果 。 这 样 一 来 ， 所 有 的 Dstream 转 换 都 确保 有 恰好 一 次 的 语义 (semantics) 。 换 言 之 ， 即 使 有 一 个 Worker 节 点 失败 ， 但 
最 后 转换 RDD 的 结果 数据 是 不 变 的 。 也 就 是 说 ， 当 一 个 Worker 节 点 失败 ， 转 换 的 结果 数据 可 能 不 止 一 次 写 入 到 外 部 存储 。 使 用 saveAs***Files 操 作 可 以 将 数据 保存 到 HDFS。 


本 节 将 完整 地 运行 一 个 Streaming 实 例 程序 ， 该 例子 是 从 本 书 的 工程 代码 中 抽取 Streaming 部 分 简化 而 成 。 完 整 过 程 如 下 : 


首先 ， 导 入 Spark Streaming 和 其 他 用 到 的 类 。 


// 导入 类 

import org.apache.spark. SparkConf 
import org.apache.spark.streaming. 

import org.apache.spark.streaming.StreamingContext. 
import scala.collection.mutable.SynchronizedQueue 
import org.apache.spark.rdd.RDD 

import java.util.Calendar 

import spray.json. 


接着 声明 一 个 数据 结构 用 于 解析 和 表示 JSON 格 式 的 数据 。 


case class ViewTrace(user: String, action: String, productId: String, productType: String) 
object ViewTraceProtocol extends DefaultJsonProtocol { 
implicit val viewTraceFormat - jsonFormat4 (ViewTrace) 


} 


然后 开始 编写 主 程序 ， 创 建 一 个 StreamingContext 对 象 ， 并 配置 其 运行 模式 为 本 地 ， 指 定 按 1 秒 的 间隔 来 接收 待 处 理 的 rddQueue Stream Data, 


StreamingLogger.setStreaminglogLevels(); 
va sparktont = = new SparkConf () .setAppName ("Streaming") .setMaster ("local[2]") 
val ssc = new StreamingContext (sparkConf, Seconds (1)) 
ssc.checkpoint ("data/checkpoint") 
val rddQueue = new SynchronizedQueue[RDD[String]] () 
val stream = ssc.queueStream (rddQueue) 


解析 Dstream 中 的 数据 并 每 隔 2 秒 计算 过 去 5 秒 中 每 一 种 商品 类 型 的 点 击 次 数 。 


import ViewTraceProtocol. 
val traces = stream.map( .parseJson.convertTo [ViewTrace]) 
val pv = traces.map(x => (x.productType, 1)).reduceByKeyAndWindow( + , - , Seconds(5), Seconds (2), 1).map( 
x => (Calendar.getlInstance().getTime.toString, x. 1, "PV", x. 2)) 
pv.foreachRDD( rdd => i i 
rdd.foreachPartition (partitionOfRecords => ( 
partitionOfRecords.foreach (record => 
if (record. 4 > 0) { 
println(record.toString()) 


} 


) 
}) 
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因为 这 里 我 们 使 用 RDD 队 列 流 代 蔡 真实 工程 中 的 Kafka-Streaming 驱 动 程序 运行 ， 实 际 上 该 数据 的 来 源 是 一 个 小 型 网 站 的 点 击 数据 通过 Kafka 发 给 Spark-Streaming。 


ssc.start() 

val sl = """("user":"Tom","action":"view", "productId":"20", "productType":"Covers")""" 
val s2 = """("user":"Groot","action":"view", productId":"14","productType": 
"Covers" } now 
val s3 = """("user":"Rocket", "action":"view", productId":"13", "productType": 
"Covers" } wow 
// Create and push some RDDs into 
val lines = List(sl, s2, s3) 


for (i <- 1 to 20) { 
rddQueue += ssc.sparkContext.makeRDD (lines, 2) 
Thread.sleep (1000) 

} 

Thread.sleep (6000) 

ssc.stop() 

Ssc.awaitTermination() 


iya 


最 后 运行 程序 ， 在 终端 上 会 打印 出 以 下 内 容 (时 间 是 此 实例 测试 时 生成 的 ， 请 读者 忽略 ) 。 


(Sun Dec 28 17:02:33 CST 2014,Covers, EV, 6) 
(Sun Dec 28 17:02:34 CST 2014,Covers, EV, 12) 
(Sun Dec 28 17:02:36 CST 2014,Covers, PV, 15) 
(Sun Dec 28 17:02:38 CST 2014,Covers, PV, 15) 
(Sun Dec 28 17:02:40 CST 2014,Covers, PV, 15) 
(Sun Dec 28 17:02:42 CST 2014,Covers,EV,15) 
(Sun Dec 28 17:02:44 CST 2014,Covers, EV, 15) 
(Sun Dec 28 17:02:46 CST 2014,Covers, PV, 15) 
(Sun Dec 28 17:02:48 CST 2014,Covers, EV, 15) 
(Sun Dec 28 17:02:50 CST 2014,Covers, PV, 15) 
(Sun Dec 28 17:02:52 CST 2014,Covers, EV, 9) 
(Sun Dec 28 17:02:54 CST 2014,Covers, EV, 3) 
Process finished with exit code O0 


7.6 ”本章 小 结 


本 章 介绍 了 基于 Dstream 的 流 式 计算 的 新 贵 Spark streaming。 它 可 以 支持 非常 广泛 的 运算 ， 具 有 单 节 点 的 高 吞吐 量 ， 可 线性 扩展 至 100 个 节点 ， 亚 秒 级 的 延迟 ， 以 及 亚 秒 级 故障 恢复 等 特点 。 
DStream 与 Spark 其 他 扩展 一 样 使 用 相同 的 执行 引擎 ， 因 此 能 与 批 处 理 和 交互 式 查询 无 颖 集成 。 


第 8 章 Spark MLlib 与 机 器 学 习 


大 方 无 阳 ; 大 器 晚 成 ; 大 音 希 声 ; 大 象 无 形 ; 道 隐 无 名 。 
一 一 《道德 经 》 第 四 十 一 章 


历 千 年 沧桑 ， 经 大 浪 淘 沙 ， 依 然 为 我 们 所 熟知 。 最 方正 的 反而 没有 棱角 ; 贵重 的 器 物 总 是 最 后 完成 ; 最 大 的 音乐 反而 听 来 无 音响 ; 最 大 的 形象 反而 看 不 见 形迹 ; “ 道 ” 山 隐 而 没有 名 称 。 只 有 超脱 自 
身 “ 小 ”境界 ， 悟 道 “ 大 ”境界 ， 实 现 量变 到 质变 的 跨 域 ， 才 能 够 有 更 大 的 收获 。 明 白 了 这 一 点 ， 我 们 就 能 坦然 面 对 学 习 中 的 很 多 挫折 ， 逐 步 把 握 “ 质 变 ” 的 主线 ， 实 现 自我 的 提升 。 


大 数据 处 理 之 机 器 学 习 ， 是 实现 传统 机 器 学 习 算 法 到 快速 机 器 学 习 算 法 跨越 的 开始 ， 也 是 我 们 实现 自身 跨越 的 起 点 。 当 前 ， 各 种 分 布 式 计算 平台 纷纷 推出 了 各 式 各 样 的 机 器 学 习 实现 库 ， 如 Hadoop 平 
台 上 的 Mahout，Spark 平 台 上 的 机 器 学 习 框 架 MLlib 等 。 无 疑 ，Spark 的 MLlib 受 益 于 Spark 基 于 内 存 迭 代 的 分 布 式 计算 特性 ， 而 成 为 快速 机 器 学 习 算法 平台 中 极为 出 色 的 实现 。 


本 章 首先 对 机 器 学 习 相 关 概 念 进行 简要 介绍 ， 然 后 对 Spark MLlib 的 构成 及 其 支持 的 常见 机 器 学 习 问 题 进行 详细 描述 ， 并 通过 具体 的 理论 和 实例 对 MLlib 的 优势 之 处 进行 扩展 分 析 。 除 了 Spark MLlib， 
还 对 Spark ML 库 的 主要 概念 、 算 法 及 实例 进行 说 明 。spark 的 ML 库 基 于 DataFrame 提 供 高 性 能 AP1， 并 针对 机 器 学 习 算 法 标准 化 ， 将 多 种 算法 结合 到 流水 线 上 来 ， 使 机 器 学 习 编程 更 加 容易 ， 更 加 高 效 。 


8.1 ”机 器 学 习 概述 
机 器 学 习 (Machine Learning, ML) 是 一 门 多 领域 交 义 学 科 ， 涉 及 概率 论 、 统 计 学 、 副 近 论 、 凸 分 析 、 算 法 复杂 度 理论 等 多 门 学 科 。 其 研究 重心 在 于 如 何 使 计算 机 模拟 或 实现 人 类 的 学 习 行 为 ， 从 而 
获取 新 的 知识 或 技能 ， 并 通过 重新 组 织 己 有 的 知识 结构 来 不 断 改善 自身 的 性 能 。 


机 器 学 习 也 是 一 门人 工 智 能 的 科学 ， 是 使 计算 机 具有 智能 的 根本 途径 ， 特 别 是 能 够 在 经 验 学 习 中 改善 具体 算法 的 性 能 。 其 应 用 遍及 人 工 智 能 的 各 个 领域 ， 包 括 数据 挖 气 、 计 算 机 视觉 、 自 然 语 言 处 理 、 
生物 特征 识别 、 搜 索引 擎 、 医 学 诊断 、 检 测 信用 卡 欺诈 、 证 券 市 场 分 析 、DNA 序 列 测序 、 语 音 和 手写 识别 、 战 略 游戏 和 机 器 人 运用 等 。 


8.1.1 机 器 学 习 分 类 


机 器 学 习 按 照 学 习 形式 进行 分 类 ， 可 分 为 监督 学 习 、 无 监督 学 习 、 半 监督 学 习 、 强 化 学 习 。 


监督 学 习 的 输入 是 有 标注 分 类 标签 的 样本 集 ， 通 俗 地 说 就 是 给 定 了 一 组 标准 答案 。 监 督学 习 从 这 样 给 定 了 分 类 标签 的 样本 集中 学 习 出 一 个 函数 ， 当 新 的 数据 到 来 时 ， 就 可 以 根据 这 个 函数 预测 新 数据 的 
分 类 标签 。 常 见 的 监督 学 习 算法 包括 回归 分 析 和 统计 分 类 。 


无 监督 学 习 与 监督 学 习 相 比 ， 样 本 集中 没有 预先 标注 好 的 分 类 标签 ， 即 没有 预先 给 定 的 标准 答案 。 它 没有 告诉 计算 机 怎么 做 ， 而 是 让 计算 机 自己 学 习 如 何 对 数据 进行 分 类 ， 然 后 对 那些 正确 分 类 行为 采 
取 某 种 形式 的 激励 。 常 见 的 无 监督 学 习 算法 如 聚 类 。 


半 监 督学 习 介 于 监督 学 习 与 无 监督 学 习 之 间 ， 其 主要 解决 的 问题 是 利用 少量 的 标注 样本 和 大 量 的 未 标注 样本 进行 训练 和 分 类 ， 从 而 达到 减少 标注 代价 、 提 高 学 习 能 力 的 目的 。 


强化 学 习 是 一 种 以 环境 反馈 作为 输入 的 、 特 殊 的 、 适 应 环境 的 方法 ， 每 个 动作 都 会 对 环境 有 所 影响 ， 学 习 对 象 根据 观察 到 的 周围 环境 的 反馈 做 出 判断 。 常 见 的 应 用 场景 包括 动态 系统 以 及 机 器 人 控制 


8.1.2 机 器 学 习 算 县 


机 器 学 习 常 见 的 算法 有 : 

(1) 构造 条 件 概率 ， 回 归 分 析 和 统计 分 类 
决策 树 ; 

C 高 斯 过 程 回归 


线性 判别 分 析 ; 


.支持 向 量 机 ; 

人 工 神经 网 络 

(2) 通过 再 生 模 型 构造 概率 密度 函数 
最 大 期 望 算法 ; 

贝 叶 斯 网 和 Matkov 随 机 场 。 

(3) 图 模型 的 近似 推理 方法 


` 马尔 可 夫 链 蒙特 卡 罗 方 法 ; 


8.2 Spark MLlib 介 绍 

MLlib 是 Spark 对 常用 的 机 器 学 习 算法 的 实现 库 ， 同 时 包括 相关 的 测试 和 数据 生成 器 。MLlib 目 前 支持 4 种 常见 的 机 器 学 习 问 题 : 二 元 分 类 、 回 归 、 聚 类 以 及 协同 过 滤 ， 以 及 一 个 底层 的 梯度 下 降 优化 基础 
算法 ，MLIib 在 Spark 整 个 生态 系统 中 的 位 置 如 图 8-1 所 示 。 

MLlib 基 于 RDD， 天 生 就 可 以 与 Spark SQL, GraphX, Spark Streaming 无 颖 集成 ， 以 RDD 为 基石 ，4 个 子 框架 可 联手 构建 无 可 匹敌 的 大 数据 计算 中 心 。 


MLIib 是 MLBase 的 一 部 分 ，MLBase 通 过 边界 定义 ， 力 图 将 MLBase 打 造成 一 个 机 器 学 习 平台 ， 让 机 器 学 习 开发 的 门槛 更 低 ， 让 一 些 并 不 了 解 机 器 学 习 的 用 户 也 能 方便 地 使 用 MLBase 这 个 工具 来 处 理 自 
己 的 数据 。 为 了 实现 这 一 目标 ，MLBase 定 义 了 4 个 边界 ， 其 分 层 结构 如 图 8-2 所 示 。 从 图 中 可 以 看 出 ， 在 MLIlib 上 面 还 有 ML 和 ML Optimizer，MLI 是 一 个 进行 特征 抽取 和 高 级 ML 编程 抽象 的 算法 实现 的 
API; ML Optimizer 优 化 器 会 选择 最 适合 的 、 已 经 实现 好 了 的 机 器 学 习 算法 和 相关 参数 。 


本 地 运行 
模式 
Tachyon 
HDFS、 Amazon S3、Hypertable 


图 8-1 Spark MILlib 在 Spatk 整 个 生态 圈 中 的 位 置 


ML Optimizer 


图 8-2 ”MLBase 的 分 层 结构 


下 面 以 一 个 训练 分 类 器 的 实例 ， 来 说 明 MLBase 是 如 何 让 机 器 学 习 简 单 易 用 ， 而 不 必 关 心 如 何 选择 合适 的 分 类 算法 。 


构建 一 个 10 行 10 列 的 数据 集 ， 并 给 数据 随机 赋值 。 


// 构造 一 个 10 行 10 列 的 数组 
val data- Array.ofDim[Int] (10,10) 
for (i <- 0 until 10)( 
for (j <- 0 until 10) { 
// 给 数组 赋值 随机 数 
data(i)(j) = scala.util.Random.nextInt (100) 


} 

// 取 第 2~10 列 数据 

x — data[,2to10] 

// 取 第 1 列 数据 

y = data[,1] 

// 调用 分 类 算法 进行 分 类 


model = do classify(y, x) 


在 上 面 的 代码 中 ，x 是 训练 集 的 样本 特征 空间 ，y 是 样本 相应 的 分 类 标签 ， 用 户 仅 仅 需 要 告诉 MLBase 想 要 训练 分 类 器 do_classify (y, x) ， 而 不 必 考 虑 选择 何 种 分 类 算法 ， 是 支持 向 量 机 还 是 决策 树 ， 
也 不 必 关 心 模型 的 参数 究竟 选择 什么 值 ，MLBase 会 自动 地 选择 优化 方案 。 

MLBase 之 所 以 能 够 做 到 如 此 ， 是 因为 MLBase 的 组 件 之 一 ML Optimizer 会 选择 它 认 为 最 合适 的 并 且 已 经 在 内 部 实现 好 的 分 类 算法 和 其 相关 的 参数 ， 来 处 理 用 户 输入 的 数据 ， 并 返回 模型 或 分 析 结 果 。 
MLRuntime 基 于 9park 计 算 框架 ， 将 Spark 的 分 布 式 计算 应 用 到 机 器 学 习 领 域 。 


8.3 Spark MLIib 库 


Spark MLlib 架 构 由 底层 基础 、 算 法 库 和 应 用 程序 三 部 分 构成 ， 如 图 8-3 所 示 。 


Precision Recall F-measure 
Decision Tree 


Classification Regression 
Recommendation 
L-BFGS 


MLlib matrix interface 


Resilient Distributed Dataset | MLlib vector interface 


Breeze 


Netlib-java 
Java &H.T. 


Utilities BLAS/LAPACK 


图 8-3 Spark MLlibZ& 44 


底层 基础 : 包括 Spark 的 运行 库 、 进 行 线性 代数 相关 技术 的 矩阵 库 和 向 量 库 。 例 如 ， 位 于 图 8-3 右 下 角 的 BLAS/LAPACK， 它 是 矩阵 计算 的 数学 库 ， 主 要 做 一 些 线性 代数 或 者 矩阵 的 计算 ， 这 些 和 矩阵 库 和 
向 量 库 都 会 使 用 Scala 语 言 基于 Netlib 和 BLAS/LAPACK 开 发 的 线性 代数 库 Breeze。 

算法 库 : 包括 Spark MLlib 实 现 的 具体 机 器 学 习 算法 ， 以 及 为 这 些 算法 提供 的 各 类 评估 方法 。 主 要 实现 算法 包括 建立 在 广义 线性 回归 模型 的 分 类 和 回归 ， 以 及 协同 过 滤 、 聚 类 和 决策 树 。 例 如 ， 在 图 8-3 
中 ， 在 MLlib vector interface 之 上 就 是 各 种 机 器 学 习 算 法 库 ， 左 侧 的 Classification 是 分 类 算法 ，Regression 是 用 于 做 回归 人 迭代 计算 的 ， 其 中 Classification 和 Regression 的 底层 都 是 GLM ， 即 广义 线性 模 
型 ， 其 优化 算法 有 三 种 : SGD、ADMM、L-BFGS。 在 算法 库 的 中 间 部 分 是 Recommendation， 这 里 实现 的 是 ALS。 推 荐 算法 右 侧 是 聚 类 K-means。 在 聚 类 右 侧 是 决策 树 相关 的 内 容 。 在 MLlib 整 个 架构 图 


的 最 上 层 是 MLlib 中 已 经 提供 的 各 类 算法 评估 方法 ， 如 AUC、ROC 等 。 


应 用 程序 : 包括 测试 数据 的 生成 以 及 外 部 数据 的 加 载 等 功能 。 
8.3.1 MLIib 数 据 类 型 


Spark MLlib 的 底层 基础 关键 是 其 支持 的 数据 类 型 ， 具 体 如 下 : 

.本 地 向 量 ; 

CARGO; 

CARISSAETE; 

-DM AERE; 

- ITEE; 

- RAEE; 

| EAEE, 

Spark MLIlib 支 持 单机 存储 的 本 地 向 量 和 本 地 矩阵， 也 支持 依赖 于 一 个 或 多 个 RDD 存 储 的 分 布 式 和 矩阵 。 本 地 向 量 和 本 地 矩阵 是 简单 的 数据 模型 。 另 外 ，M LIib 也 支持 标记 点 类 型 ， 如 在 MLlib 的 监督 训练 
模型 的 一 个 实例 被 记 为 标记 点 类 型 (LabeledPoint) 。 
1. 本 地 向 量 


本 地 向 量 存储 在 单机 上 ， 由 从 0 开始 的 Int 型 的 索引 和 Double 型 的 值 组 成 ， 存 储 在 单机 上 。MLlib 支 持 两 种 类 型 的 本 地 向 量 : 密集 向 量 (dense vector) 和 稀 踢 向 量 (spare vector) 。 其 中 ， 密 集 向 量 
的 值 由 Double 型 的 数据 表示 ， 而 稀疏 向 量 由 两 个 并 列 的 索引 和 值 表示 。 例 如 ， 向 量 (1.0, 0.0, 3.0) ， 若 采取 密集 向 量 表 示 ， 则 为 : [1.0, 0.0, 3.0]; 若 采 取 稀 朴 向 量 表示 ， 则 为 : (3, [O, 2], 
[1.0，3.0]) ， 其 中 3 表示 向 量 维 度 ，[0，2] 表 示 索 引 (下 标 从 0 开始 ) ，[1.0，3.0] 表 示 对 应 索引 下 的 值 。 


本 地 向 量 的 基 类 是 Vector，MLlib 提 供 DenseVector 和 SparseVector 两 种 实现 。MLlib 推 荐 使 用 工厂 方法 创建 本 地 向 量 ， 用 Scala 实 现 的 实例 如 下 : 


// 导入 ML1ib 

import org.apache.spark.MLlib.linalg.(Vector, Vectors} 

// 创建 (1.0, 0.0, 3.0) 9E 1 X 

val dv: Vector = Vectors.dense(1.0, 0.0, 3.0) 

// 通过 指定 非 零 向 量 的 索引 和 值 ， 创 建 (1.0, 0.0, 3.0) 9 kn ARE AS Lg X 
val svi: Vector = Vectors.sparse(3, Array(0, 2), Array(1.0,3.0)) 
// 通过 指定 非 零 向 量 的 索引 和 值 ， 创 建 (1.0, 0.0, 3.0) 6g Æ INE iiA X 
val sv2: Vector = Vectors.sparse(3, Seq((0, 1.0), (2, 3.0))) 


2. 标 记 点 


标记 点 是 由 一 个 本 地 向 量 (AR) 和 一 个 标签 (Int 型 或 Double 型 ) 组 成 。 在 MLlib 中 ， 标 记 点 主要 被 应 用 于 回归 和 分 类 这 样 的 监督 学 习 算 法 中 。 标 签 通常 采用 Int 型 或 Double 型 的 数据 存储 格 
式 ， 如 在 二 分 类 中 ， 标 记 为 1 表示 正 向 ， 标 记 为 0 表示 反 向 。 对 于 多 元 分 类 ， 标 签 的 索引 (下 标 ) 从 0 开始 递增 ， 如 0，1，2，3.…。 而 在 回归 计算 问题 中 ， 标 签 可 能 就 是 Double 型 的 值 。 


下 面 给 出 一 个 用 Scala 实 现 的 标记 点 类 型 LabeledPoint 表 示 示 例 。 


import org.apache.spark.MLlib.linalg.Vectors 

import org.apache.spark.MLlib.regression.LabeledPoint 

// 通过 一 个 正 相 关 的 标签 和 一 个 密集 的 特征 向 量 创建 一 个 标记 点 

val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0)) 

// Create a labeled point with a negative label and a sparse feature vector. 
// 通过 一 个 负 向 标签 和 一 个 稀疏 特征 向 量 创 建 一 个 标记 点 

val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))) 


3. SIBI 


稀疏 数据 在 实践 中 是 很 常用 的 训练 数据 。 例 如 ，MLlib 可 以 读 取 存储 为 LIBSVB 格 式 的 数据 ， 其 每 一 行 代 表 一 个 带 有 标签 的 稀疏 特征 向 量 。 格 式 如 下 : 


label indexl:valuel index2:value2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 


其 中 label 是 标签 值 ，index 是 索引 ， 其 值 从 1 开始 递增 。 加 载 完 成 后 ， 索 引 被 转换 为 从 0 开始 。 


MLUtils.loadLibSVMFile 读 取 以 LIBSVM 格 式 存储 的 训练 实例 如 下 (Scala 语言 实现 ) : 


import org.apache.spark.MLlib.regression.LabeledPoint 
import org.apache.spark.MLlib.util.MLUtils 

import org.apache.spark.rdd.RDD 

val examples: RDD[LabeledPoint] = MLUtils.loadLibSVMFile (sc, "data/MLlib/sample libsvm data.txt") 


4. 本 地 矩阵 


本 地 矩阵 是 由 (Int 类 型 行 索引 ，lnt 类 型 列 索引 ，Double 类 型 值 ) 组 成 ， 存 放 在 单机 中 。MLIlib 支 持 密集 矩阵， 密集 矩阵 的 值 以 列 优先 方式 存储 在 一 个 Double 类 型 的 数组 中 ， 和 矩阵 如 下 : 


1.0 2.0 
3.0 4.0 
5.0 6.0 


这 个 3 行 2 列 的 和 矩阵 存储 在 一 个 一 维 数组 [1.0，3.0，5.0，2.0，4.0，6.0] 中 。 


本 地 和 矩阵 的 基 类 是 Matrix，MLIib 只 提供 了 一 种 实现 : DenseMatrix。MLlib 建 议 使 用 Matrices 中 的 工厂 方式 创建 一 个 本 地 矩阵。 用 Scala 实 现 的 示例 如 下 : 


import org.apache.spark.MLlib.linalg.(Matrix, Matrices) 

// &|i—^EZSBRAB((1.0, 2.0), (3.0, 4.0), (5.0, 6.0)) 

val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0)) 

// &|x£—^MSERAEME((9.0, 0.0), (0.0, 8.0), (0.0, 6.0)) 

val sm: Matrix = Matrices.sparse(3, 2, Array(0, 1, 3), Array(0, 2, 1), Array(9, 6, 8)) 


5. 分 布 式 矩阵 


分 布 式 和 矩阵 由 (Long 类 型 行 索引 ，Long 类 型 列 索引 ，Double 类 型 值 ) 组 成 ， 分 布 存 储 在 一 个 或 多 个 RDD 中 。 因 为 要 缓存 矩阵 的 大 小 ， 所 以 分 布 式 和 矩阵 底层 的 RDD 必 须 是 确定 的 ， 选 择 正 确 的 格式 来 存 
储 巨 大 的 分 布 式 矩 阵 是 非常 重要 的 ， 否 则 会 导致 错误 的 出 现 。 另 外 ， 转 换 分 布 式 和 矩阵 的 格式 ， 需 要 全 局 Shuffle， 这 个 代价 亦 是 相当 昂贵 的 。 到 目前 为 止 ，MLlib 实 现 了 三 种 分 布 式 矩阵 。 


最 基础 的 分 布 式 和 矩阵 是 行 矩 阵 RowMatrix， 它 是 面向 行 分 布 式 的 矩阵 ， 其 行 索 引 无 具体 意义 ， 每 行 是 一 个 本 地 向 量 。 例 如 ， 一 系列 特征 向 量 的 集合 ， 通 过 RDD 表 示 所 有 的 行 ， 每 一 行 都 是 一 个 本 地 向 
所 以 其 列 数 就 会 被 整数 表示 的 范围 限制 ， 在 实践 中 列 数 是 一 个 很 小 的 数值 ，RowMatrix 可 以 由 RDD[Vector] 实 例 创 建 ， 然 后 我 们 可 以 计算 其 列 汇 总 统计 信息 。 一 个 由 Scala 实 现 的 实例 如 下 : 


Eu 
E 


- 


import org.apache.spark.MLlib.linalg.Vector 

import org.apache.spark.MLlib.linalg.distributed.RowMatrix 
// 一 个 本 地 向 量 的 RDD[Vector] 
val rows: RDD[Vector] = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 从 一 个 RDD [Vector] 创 建 一 个 行 矩 阵 

val mat: RowMatrix = new RowMatrix (rows) 

// 获取 行 矩 阵 的 行 和 列 

val m = mat.numRows () 

val n = mat.numCols () 


第 二 种 分 布 式 矩 阵 就 是 行 索引 矩阵 IndexedRowMatrix， 与 RowMatrix 相 似 ， 但 是 不 同 的 是 其 行 索 引 有 意义 。 本 质 上 是 一 个 含有 索引 信息 的 行 数据 集合 。 每 一 行 由 Long 类 型 行 索 引 和 本 地 向 量 组 成 。 


IndexedRowiMatrix 可 以 由 RDD[IndexedRow] 实 例 创建 。IndexedRow 的 格式 是 (Long, Vector) ， 一 个 Scala 实 现 的 实例 如 下 : 


import org.apache.spark.MLlib.linalg.distributed.(IndexedRow, IndexedRowMatrix, RowMatrixj 

// 一 个 行 索引 的 RDD[IndexeqRow] 

val rows: RDD[IndexedRow] = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 从 一 个 行 索引 的 RDD[IndexedRow] 创 建 一 个 行 索引 矩阵 

val mat: IndexedRowMatrix = new IndexedRowMatrix (rows) 

// 获取 行 索引 甜 阵 的 行 和 列 

val m = mat.numRows () 

val n = mat.numCols () 

// Drop 行 索引 

val rowMat: RowMatrix = mat.toRowMatrix() 


第 三 种 分 布 式 矩 阵 就 是 三 元 组 矩阵 CoordinateMatrix， 其 实体 集合 是 RDD。 每 个 实体 是 一 个 (Long 类 型 行 索 引 ，Long 类 型 列 索 引 ，Double 类 型 值 ) 的 三 元 组 。 只 有 当 和 矩阵 是 一 个 行 与 列 特别 多 的 稀 
玻 和 矩 孟 时 ， 才 会 使 用 CoordinateM atrix。 


一 个 CoordinateMatrix 可 以 从 RDD[MatrixEntry] 实 例 创 建 ，MatrixEntry 是 (Long, Long, Double) 的 封装 类 。CoordinateMatrix 可 以 调用 tolndexRowMatrix 转 换 成 IndexedRowMatrix (其 行 仍 
IEEE) 。 


import org.apache.spark.MLlib.linalg.distributed.(CoordinateMatrix, MatrixEntry] 
// 一 个 矩阵 的 RDD[MatrixEntry] 
val entries: RDD[MatrixEntry] = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 从 一 个 矩阵 的 RDD[MatrixEntry] 创 建 一 个 三 元 组 矩阵 

val mat: CoordinateMatrix = new CoordinateMatrix (entries) 

// 获取 三 元 组 矩阵 的 行 和 列 

val m = mat.numRows () 

ln mat.numCols () 

// HEARERS CREUSE) ATR ile 


val indexedRowMatrix = mat.toľIndexedRowMatrix () 


因为 要 缓存 矩 阵 的 大 小 ， 分 布 式 矩阵 底层 的 RDD 必 须 是 确定 的 。 如 果 使 用 非 确定 的 RDD 会 导致 错误 的 出 现 。 


8.3.2 ”MLlib 的 算法 库 与 实例 
SparkMLlib 实 现 的 机 器 学 习 问 题 包 含 基本 统计 ， 分 类 和 回归 、 聚 类 、 协 同 过 滤 、 降 维 ， 也 包含 底层 优化 组 件 ， 针 对 每 一 个 机 器 学 习 问 题 ， 所 实现 的 算法 如 下 : 
基本 统计 : 
CIE AH; 
| 相关 性 统计 ; 
分 层 抽 样 ; 
t 假设 检验 ; 


随机 数据 生成 ; 


. 线性 模型 (支持 向 量 机 SVM、 逻 辑 回 归 、 线 性 回归 ) ; 
- 朴素 贝 叶 斯 ; 

决策 树 ; 

- 随机 森林 和 梯度 提升 决策 树 (GBT) 。 

协同 过 渡 : 


. 交替 最 小 二 乘法 (ALS) ào 


Ad 


- 快速 迭代 聚 类 (PIC) ; 
: 三 层 贝 叶 斯 概率 模型 (LDA) ; 


- 流 式 区 -means。 


| 奇异 值 分 解 〈SVD) ; 

. 主 成 分 分 析 (PCA) 。 
频繁 模式 挖掘 : 

: FR-growth; 

关联 规则 ; 

- PrefixSpan。 
优化 器 : 

随机 梯度 下 降 ; 

- 限制 内 存 BFGS (L-BFGS) 。 


除 此 之 外 ， 还 有 特征 值 提取 和 转换 、 评 价 指标 、PM ML 模型 输出 等 算法 实现 。 
1. 基 本 统计 方法 


基本 统计 方法 包括 : 汇总 统计 (summary statistics) 、 相 似 性 分 析 (correlations) 、 分 层 抽 样 (stratified sampling) 、 假 设 检 验 (hypothesis testing) 、 随 机 数据 生成 (random data 


generation) 、 核 密度 估计 (kernel density estimation) 。 
在 MLlib 的 统计 包 里 实现 了 KolmogorovSmirnov 检 验 ， 用 以 检验 两 个 经 验 分 布 是 否 不 同 或 一 个 经 验 分 布 与 另 一 个 理想 分 布 是 否 不 同 。 
(1) 汇总 统计 


MLIib 提 供 Statistics 中 的 colstats 对 RDD[Vecton] 中 的 数据 进行 列 汇总 统计 。colstats () 方法 返回 MultivariateStatisticalSummary 实 例 。 该 实例 中 包含 每 列 的 最 大 值 、 最 小 值 、 平 均值 、 方 差 、 非 零 
元 素 的 个 数 以 及 元 素 总 数 等 统计 信息 。Scala 实 现 的 一 个 实例 如 下 : 


import org.apache.spark.MLlib.linalg.Vector 

import org.apache.spark.MLlib.stat.(MultivariateStatisticalSummary, Statistics] 
// 一 个 向 量 RDD 
val observations: RDD[Vector] = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 计算 列 江 总 统计 
val summary:MultivariateStatisticalSummary -Statistics.colStats (observations) 
// 包括 每 一 列 平均 值 的 密集 向 量 

println(summary.mean) 

// 列 方 差 
println(summary.variance) 

// 每 一 行 的 非 堆 
println(summary.numNonzeros) 


(2) 相关 性 分 析 


相关 性 分 析 是 计算 两 个 系列 之 间 的 相关 统计 数据 。MLlib 提 供 了 计算 系列 之 间 相关 性 的 多 种 灵活 计算 方法 ,支持 皮尔 森 (Pearson) 和 斯 皮尔 曼 (Spearman) 的 相关 性 检测 。Statistics 提 供 了 一 些 方法 
来 计算 系列 之 间 的 相关 性 ， 针 对 不 同 的 数据 输入 类 型 ， 两 个 DD[Double] 或 RDD[Vecton]， 输 出 对 应 的 一 个 Double 类 型 的 数据 或 是 一 个 相关 矩阵。 其 Scala 实 现 的 实例 如 下 : 


t org.apache.spark.SparkContext 
import org.apache.spark.MLlib.linalg. _ 

import org.apache.spark.MLlib.stat.Statistics 

val sc: SparkContext = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 一 个 系列 seriesx 
val seriesX:RDD[Double] = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 和 seriesX 有 相同 数量 的 分 区 和 基数 
val seriesY:RDD[Double] = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/0 
// 默认 使 用 Pearson 的 方法 ， 输 入 "spearman" 使 用 Spearman 的 方法 计算 相似 性 

val correlation: Double = Statistics.corr(seriesX, seriesY, "pearson") 

// 标记 每 一 个 向 量 是 行 而 不 是 一 个 列 

val data: RDD[Vector] = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/0l 
// 默认 使 用 Pearson 的 方法 计算 相关 矩阵， 输入 "spearman" 使 用 Spearman 的 方法 

val correlMatrix: Matrix = Statistics.corr(data, "pearson") 


EBPS/Text/... 


EBPS/Text/... 


(3) 分 层 抽样 


MLlib 提 供 了 不 同 于 其 他 方式 的 抽样 方法 ， 其 所 提供 的 分 层 抽样 方法 ， 如 sampleByKey 和 sampleByKeyExact 都 可 以 运行 在 键 值 对 格式 的 RDD 上 的 。 对 于 分 层 抽样 ，key 是 标签 ， 值 作为 特定 的 属性 。 例 
如 ，Kkey 可 以 是 男 / 女 ， 文 档 的 ID， 其 相应 的 值 可 以 是 人 口 数 据 中 的 年 龄 列表 或 是 文档 中 的 词语 列表 。sampleByKey 方 法 对 每 一 个 观测 值 采 取 抛 掷 硬币 的 方式 决定 是 否 抽取 它 ， 该 方法 需要 遍历 所 有 的 数据 ， 
同时 也 需要 提供 期 望 抽取 样本 的 大 小 。sampleByKeyExact 方 法 不 是 简单 地 在 每 一 层 上 使 用 sampleByKey 方 法 进行 抽样 ， 它 需要 更 多 的 资源 ， 但 可 以 提供 置信 和 度 为 99.99% 的 精确 抽样 。 


sampleByKeyExact () 允许 用 户 精 确 抽取 [fknklYkEK 个 元 素 ， 其 中 化 是 从 键 K 中 期 望 抽 取 的 比例 ，nk 是 从 键 k 中 抽取 键 值 对 的 数量 ， 而 K 是 键 集 合 。 无 返回 抽样 方式 采取 对 数据 多 人 遍历 一 次 ， 来 确保 抽 
样 大 小 的 准确 ;有 放 回 的 抽样 采取 对 数据 多 遍历 两 次 ， 来 确保 抽样 大 小 的 准确 。 


Scala 实 现 的 sampleByKeyExact () 实例 代码 如 下 : 


import org.apache.spark.SparkContext 


import org.apache.spark.SparkContext. | 
import org.apache.spark.rdd.PairRDDFunctions 
val sc: SparkContext = http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 一 个 任意 键 值 对 的 RDD[ (K, V)] 

val data = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 

// 从 每 个 键 指 定 所 需 确切 的 分 数 


val fractions: Map[K, Double] = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 获取 每 个 分 层 的 一 个 精确 抽样 

val approxSample = data.sampleByKey (withReplacement = false, fractions) 

val exactSample = data.sampleByKeyExact (withReplacement false, fractions) 


(4) 假设 检验 


统计 假设 检验 是 一 种 强大 的 工具 ， 用 于 判断 统计 结果 是 否 充分 或 是 否 随机 。MLlib 目 前 支持 Pearson 卡 方 检验 X<， 用 来 检验 适 配 性 和 独立 性 。 根 据 不 同 的 输入 数据 的 类 型 ， 来 判定 是 输出 适 配 性 或 是 独立 
性 。 适 配 性 要 求 输入 的 数据 类 型 是 Vector， 独 立 性 要 求 的 输入 数据 类 型 是 M 


atrix, 
MLlib 也 支持 输入 类 型 为 RDD[LabeledPoint] 的 数据 ， 使 用 卡 方 独立 性 对 特征 值 进行 独立 性 检验 。Statistics 提 供 Pearson 卡 法 检验 ， 下 面 的 Scala 例 子 演示 了 如 何 运行 假设 检验 : 


import org.apache.spark.SparkContext 

import org.apache.spark.MLlib.linalg. 

import org.apache.spark.MLlib.regression.LabeledPoint 

import org.apache.spark.MLlib.stat.Statistics. | 

val sc: SparkContext = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 一 个 事件 频率 组 成 的 向 量 
val vec: Vector = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 计算 适 配 性 ， 如 果 没 有 提供 第 二 个 向 量 测 试 参数 ， 测 试 均 分 分 布 运行 

val goodnessOfPFitTestResult = Statistics.chiSqTest (vec) 

// 测试 总 结 包括 假定 值 、 自 由 度 、 检 验 统计 量 、 方 法 和 零 假 设 

println(goodnessOfFitTestResult) 

// —^ÓEAER- 
val mat: Matrix = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 在 输入 的 列 联 和 矩阵 上 进行 Pearson 的 独立 测试 

val independenceTestResult = Statistics.chiSqTest (mat) 

// 测试 总 结 包 括 假定 值 、 自 由 度 

println(independenceTestResult) 

// (特性 ， 标 签 ) 键 值 对 


val obs: RDD[LabeledPoint] = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 列 联 表 是 由 原始 (特性 、 标 签 ) 键 值 对 构建 ， 并 用 来 进行 独立 性 测试 。 
val featureTestResults: Array[ChiSqTestResult] = Statistics.chiSqTest (obs) 


var i = 1 
// 测试 总 结 
featureTestResults.foreach ( result => 
println(s"Column $i: WMn$result") 
i += 1 


(5) 随机 数据 生成 


随机 数据 生成 对 随机 算法 、 原 型 和 性 能 测试 是 非常 有 用 的 。MLlib 支 持 指定 分 布 类 型 生成 随机 RDD， 指 定 的 类 型 可 以 是 均匀 分 布 、 标 准 正 态 分 布 和 泊 松 分 布 。 RandomRDD 提 供 工 三 方法 随机 生成 
Double 类 型 的 RDD 或 Vector 类 型 的 RDD。 下 面 的 生成 一 个 随机 的 Double RDD， 其 值 遵循 标准 正 态 分 布 的 N (0, 1) ， 然 后 将 其 映射 到 N (1，4) 。 


import org.apache.spark.SparkContext 

import org.apache.spark.MLlib.random.RandomRDDs. 

val sc: SparkContext = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 生成 一 个 随机 Double 类 型 的 RDD, 包含 1 亿 个 来 自 标 准 正 态 分 布 N(0，1) 的 i .i.d. 值 ， 

// 均匀 分 布 在 10 个 i .i.d. 分 区 

val u = normalRDD(sc, 1000000L, 10) 

// 应 用 一 个 转换 操作 获取 一 个 随机 Doulble 类 型 的 RDD， 映 射 到 'N(1，4) 

val v = u.map(x => 1.0 + 2.0 * x) 


MLlib 支 持 二 元 分 类 、 多 元 分 类 和 回归 分 析 等 多 种 算法 。 表 8-1 列 出 了 问题 类 别 及 其 相关 算法 。 
表 8-1 ”问题 分 类 及 相关 算法 
问题 类 别 支持 的 方法 
-元 分 类 线性 支持 向 量 机 、 逻 辑 回归 、 决 策 树 和 朴素 贝 叶 斯 
多 元 分 类 决策 树 、 朴 素 贝 叶 斯 


回归 分 析 线性 最 小 二 乘法 、Lasso、|! 


ey. mes 


许多 标准 的 机 器 学 习 方 法 可 以 转换 为 一 个 凸 优化 问题 ， 就 是 为 凸 函数 人 找到 最 小 值 的 任务 。 函 数 f 依 赖 于 一 个 d 维 的 向 量 w (对 应 代码 weights) ， 更 准确 的 是 : gan e RRA) 的 优化 问题 ， 目 标 函 数 f 
形式 如 下 : 


| 1 < 
A) 一 Pi R A) —— L N.X. $: 
fiw) (w) *— 2, (wx, y) 


这 里 xiERq 是 训练 数据 ， 其 中 1<isn，yiER 是 相应 的 标签 ， 即 预测 目标 。 如 果 L (w; x, y) 能 被 表述 为 wx 和 y 的 一 个 函数 ， 则 该 方法 是 线性 的 。 


ETAS ARD: 控制 模型 复杂 度 的 正则 化 因子 和 度量 模型 误差 的 损失 函数 。 损 失 函 数 L (w; .) 通常 是 关于 w 的 凸 函 数 。 事 先 确定 的 正则 化 参数 和 > 0 在 最 小 化 损失 量 (训练 误差 ) 和 最 小 化 模型 复杂 
E (避免 过 拟 合 ) 之 间 做 出 了 平衡 。 


表 8-2 总 结 了 损失 函数 及 其 梯度 或 子 梯度 在 MLIib 中 的 支持 方法 。 


表 8-2 损失 函数 及 其 梯度 或 子 梯度 在 MLlib 中 的 支持 方法 


损失 函数 L(w;x.y) 梯度 或 子 梯度 
Na X if yw x <1 


hinge 损失 max|0,] —ywxl,y e |-1, +1} 
0 其 他 


l 
JE m 一 Vy je 
logistic 损失 "| | + exp (— yw x) i 


squared 损失 (wx-y)'x 


正则 化 因子 的 目的 是 获取 简单 模型 并 避免 过 拟 合 。MLlib 支 持 的 正则 化 因子 如 表 8-3 所 示 。 


表 8-3 MIlib 支 持 的 正则 化 因子 


正则 化 因子 R(w) 梯度 或 子 梯度 
TE 


L» 


w 
Li sign(w) 


elastic net asign(w)-(1-a)w 


Hh, sign (w) 是 一 个 代表 所 有 实体 的 标签 (signs (+1) ) 的 向 量 。 

L2 正 则 化 因子 通常 比 L1 正 则 化 平滑 ， 所 以 一 般 比 L1 正 则 化 参数 的 问题 更 容易 解决 。 然 而 ， 由 于 可 以 强化 权重 的 稀疏 行 ，L1 正 则 化 更 能 产生 较 小 和 更 容易 解释 的 模型 ，L1 可 以 用 于 特征 选择 。 不 推荐 模型 
没有 任何 正规 化 训练 ， 特 别 是 当 训 | 练 例子 的 数量 很 小 时 。 

二 元 分 类 : 目的 是 将 数据 划分 为 两 类 : 正 例 和 反例 。MLlib 支 持 的 线性 二 元 分 类 有 : 线性 支持 向 量 机 和 逻辑 回归 。 针 对 这 两 种 方式 ，MLlib 支 持 L1 和 L2 正 则 化 。 在 MLlib 中 ， 训 练 数据 集 的 格式 是 使 用 
LabeledPoint 格 式 的 RDD 表 示 。 需 要 注意 的 是 ， 在 这 里 的 数学 公式 中 ， 约 定 训练 的 标签 y 为 +1 表 示 正 例 ，-1 表 示 反 例 。 但 是 在 MLlib 中 ， 为 了 与 多 类 标签 一 致 ， 反 例 的 标签 是 0， 而 不 是 -1。 

线性 支持 向 量 机 是 大 规模 分 类 任务 的 标准 方法 。 它 是 线性 方法 ， 其 损失 函数 是 hinge loss: f (w; x, y) =max{0，1-yw1x}。 其 默认 采取 的 是 L2 正 则 化 ，MLlib 也 支持 L1 正 则 化 ， 通 过 使 用 这 种 方式 ， 
问题 就 转变 成 了 线性 规划 问题 。 

逻辑 回归 被 广泛 用 于 二 元 因 变 量 预 测 ， 它 是 线性 方法 ， 其 损失 函数 是 logistic loss: L (w; x, y) : =log (1+exp (-yw59 ) 。 


MLlib 支 持 二 元 分 类 的 常用 评价 标准 有 : 精度 、 召 回 率 、F 度 量 、 接 收 者 特征 操作 曲线 、 精 度 -召回 率 曲 线 和 AUC。AUC 常 用 来 比较 各 种 模型 的 性 能 ， 同 时 精度 、 召 回 率 、F-measure 可 以 帮助 确定 适当 
的 预测 阐 值 。 


案例 : 加 载 一 个 样本 数据 集 ， 运 用 算法 对 象 的 静态 方法 执行 训练 算法 ， 以 及 用 模型 评估 训练 误差 。 


import org.apache.spark.MLlib.classification.(SVMModel, SVMWithSGD] 
import org.apache.spark.MLlib.evaluation.BinaryClassificationMetrics 
import org.apache.spark.MLlib.util.MLUtils 
// 使 用 LIBSVM 格 式 加 载 训练 数据 
val data = MLUtils.loadLibSVMFile (sc, "data/MLlib/sample libsvm data.txt") 
// 按照 训练 (60%) , WI (40$) 切 分 数据 
val splits = data.randomSplit(Array(0.6, 0.4), seed = 111) 
val training = splits (0).cache() 
val test = splits (1) 
// 运行 训练 算法 建立 模型 
val numIterations = 100 
val model = SVMWithSGD.train(training, numIterations) 
// 清除 默认 赋值 
model.clearThreshold() 
// 计算 原始 数据 集 的 得 分 
val scoreAndLabels = test.map { point => 

val score - model.predict (point.features) 

(score, point.label) 


} 

// 得 到 评价 指标 

val metrics = new BinaryClassificationMetrics (scoreAndLabels) 
val auROC = metrics.areaUnderRCC () 

println("Area under ROC = " + auROC) 

// 保存 和 加 载 模型 

model.save(sc, "myModelPath") 

val sameModel = SVMModel.load(sc, "myModelPatnh") 


SVMWithSGD.train () 默认 采用 L2 正 则 化 ， 并 设置 正则 化 参数 为 1.0。 如 果 想 配置 该 算法 的 参数 ， 可 以 直接 生成 一 个 SVMWithSGD 实 例 ， 并 调用 setter 方 法 。MLlib 的 其 他 算法 都 支持 这 种 自 定义 优化 
方法 。 例 如 ， 下 面 的 代码 为 产生 的 L1 正 规 化 ， 且 正则 化 参数 设置 为 0.1， 并 运行 200 次 迭代 的 SVMWithsGD 训 练 算法 。 


import org.apache.spark.MLlib.optimization.L1Updater 

val svmAlg = new SVMWithSGD() 

svmAlg.optimizer.setNumIterations (200).setRegParam(0.1).setUpdater (new L1Updater) 
val modelL1 = svmAlg.run (training) 


LogisticRegressionWithSGD 的 使 用 和 SVMWithSGD 相 似 。 


线性 最 小 二 乘法 : 是 回归 问题 的 常用 公式 。 它 是 一 种 线性 方法 ， 其 损失 函数 式 : L (w; x, y) : =1/2 (whey) “。 不 同 的 回归 算法 使 用 不 同类 型 的 正规 化 参数 ， 普 通 最 小 二 乘法 或 线性 最 小 二 乘法 不 
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nm ， 其 被 称 为 均 方 误差 。 


使 用 正则 化 。 所 有 相关 模型 ， 平 均 损 失 或 训练 误差 的 计算 公式 : 
案例 : 加 载 训练 数据 ， 并 把 数据 解析 成 LabeledPoint 格 式 的 RDD。 然 后 ， 使 用 Linear-RegressionWithSGD 构 建 一 个 简单 的 线性 模型 来 预测 标签 值 。 最 后 ， 计 算 均 方 误差 对 拟 合 度 进行 评估 。 


import org.apache.spark.MLlib.regression.LabeledPoint 


import org.apache.spark.MLlib.regression.LinearRegressionModel 
import org.apache.spark.MLlib.regression.LinearRegressionWithSGD 
import org.apache.spark.MLlib.linalg.Vectors 
// 加 载 和 解析 数据 
val data = sc.textFile ("data/MLlib/ridge-data/lpsa.data") 
val parsedData = data.map ( line => 
val parts = line.split(',') 
LabeledPoint (parts (0).toDouble, Vectors.dense(parts(1).split(' ').map( .toDouble))) 
} .cache () 
// 构建 模型 
val numIterations = 100 
val model = LinearRegressionWithSGD.train(parsedData, numIterations) 
// 在 训练 例子 上 评估 模型 并 计算 错误 
val valuesAndPreds = parsedData.map ( point => 
val prediction = model.predict (point.features) 
(point.label, prediction) 
) 
val MSE = valuesAndPreds.map(case(v, p) => math.pow((v - p), 2)).mean() 
println("training Mean Squared Error = " + MSE) 
// 保存 和 加 载 模型 
model.save(sc, "myModelPath") 
val sameModel = LinearRegressionModel.load(sc, "myModelPatnh") 


RidgeRegressionWithSGD 和 LassoWithSGD 的 使 用 和 LinearRegressionWithSGD 相 似 。 


流 的 线性 回归 : 当 数 据 以 流 的 方式 到 达 ， 并 在 数据 流 到 达 时 更 新 模型 ， 对 回归 模型 是 非常 有 用 的 。 MLlib 目 前 通过 采用 普通 最 小 二 乘 线性 回归 来 实现 流 数据 回归 。 这 种 方式 与 离线 的 方式 相似 ， 但 其 拟 合 
发 生 在 每 个 数据 块 到 达 之 外 ， 目 的 是 持续 更 新 以 应 对 流 中 的 数据 。 


案例 : 两 个 不 同 的 输入 流 加 载 文本 格式 的 训练 数据 和 测试 数据 ， 将 数据 解析 成 LabeledPoint 流 ， 第 一 个 数据 流 用 于 在 线 拟 合 线性 回归 模型 训练 ， 并 在 第 二 个 数据 流 上 进行 预测 。 


import org.apache.spark.MLlib.linalg.Vectors 
import org.apache.spark.MLlib.regression.LabeledPoint 
import org.apache.spark.MLlib.regression.StreamingLinearRegressionWithSGD 
// 生成 训练 数据 和 测试 数据 输入 流 
val trainingData = ssc.textFileStream("/training/data/dir").map(LabeledPoint.parse).cache|() 
val testData = ssc.textFileStream("/testing/data/dir").map (LabeledPoint.parse) 
// 通过 初始 化 权重 为 0 创建 模型 
val numFeatures - 3 
val model = new StreamingLinearRegressionWithSGD() 
.setInitialWeights (Vectors.zeros (numFeatures)) 
// 进行 训练 和 测试 
model.trainOn (trainingData) 
model.predictOnValues (testData.map(lp => (lp.label, lp.features))).print() 
ssc.start() 
Sssc.awaitTermination() 


现在 可 以 在 训练 目录 和 测试 目录 中 添加 文本 数据 来 模拟 流 事件 。 每 一 行 的 数据 应 该 是 (y，[x1，x2，x3]) 格式 的 ， 其 中 y 是 类 的 标签 ，x1，x2，x3 是 特征 。 每 当 一 个 文本 文档 放 入 到 /training/data/dir 
目录 时 模型 就 会 更 新 。 每 当 一 个 文本 文档 放 入 到 /testing/data/dir 目 录 时 ， 将 会 观察 到 预测 结果 ， 在 训练 目录 中 添加 的 文档 越 多 ， 预 测 的 结果 也 就 越 准 确 。 


3. 协 同 过 滤 算 法 


协同 过 滤 (collaborative filtering) 推荐 算法 是 公认 的 推荐 系统 中 最 为 经 典 的 算法 。 它 通过 分 析 用 户 - 物 品评 分 和 矩阵 建立 用 户 的 兴趣 模型 ， 将 与 目标 用 户 喜 好 相似 且 未 被 该 用 户 发 现 的 物品 推荐 给 目标 用 
M, 


传统 的 协同 过 滤 算 法 分 为 两 类 ， 即 基于 内 存 和 基于 模型 。 其 中 ， 基 于 内 存 的 方法 利用 用 户 -物品 评分 矩阵 计算 相似 度 而 后 做 出 推荐 ， 包 括 基于 用 户 的 协同 过 滤 和 基于 物品 的 协同 过 滤 。 此 类 算法 的 推荐 结 
果 直 观 易 理解 ， 在 工业 中 应 用 也 较为 广泛 ， 却 受 限于 历史 评分 数据 的 高 维 稀 琉 问题 。 而 基于 模型 的 方法 则 通过 甜 阵 分 解 等 技术 将 高 维和 矩 阵 分 解 为 2 个 或 多 个 低 维 矩阵 的 乘积 ， 通 过 特性 稀疏 线性 组 合 少量 不 可 
观测 的 潜在 物品 因子 向 量 对 用 户 偏好 建 模 。 此 类 算法 能 很 好 地 和 解决 冷 启动 问题 ， 但 无 法 对 推荐 结果 进行 解释 。 


MLlib 中 使 用 交 蔡 最 小 二 乘法 ALS 来 学 习 用 户 和 物品 的 潜在 因子 ， 其 实现 中 含有 以 下 参数 : 
: numBlocks: 并 行 计算 的 块 数量 (设置 为 -1 表示 自动 配置 ) ; 

Crank: 是 模型 中 潜在 因子 的 数量 ，; 

` iterations: 是 迭代 次 数 ; 

lambda: 指定 交替 最 小 二 乘法 中 的 正则 化 参数 ; 

: implicitPrefs: 指定 是 否 使 用 显示 反馈 或 隐形 反馈 数据 ; 

` alpha: 是 隐 式 反馈 ALS 变 体 参 数 ， 它 管控 了 观测 偏好 的 置信 度 阀 值 。 


数据 是 一 切 推荐 系统 的 基础 ， 良 好 的 推荐 效果 一 定 是 来 自 于 丰富 而 准确 的 数据 。 这 些 数 据 一 方面 包括 了 用 户 (user) 和 待 推荐 物品 (item) 相关 的 基础 信息 GÈ: item 和 具体 的 推荐 场景 相关 ， 可 以 是 
商品 、 影 片 、 音 乐 、 新 闻 等 ， 如 果 是 进行 好 友 推 荐 ， 那 么 item 也 可 以 是 user 本 身 ) ， 另 一 方面 ，user 和 item 之 间 在 网 站 或 应 用 中 发 生 的 用 户 行为 和 关系 数据 也 非常 重要 。 因 为 这 些 用 户 行为 和 关系 数据 能 真 
实地 反映 每 个 用 户 的 偏好 和 习惯 。 采 集 这 些 基 础 数据 ， 并 做 好 清洗 和 预 处 理 ， 是 整个 推荐 系统 的 基石 。 


用 户 行 为 数据 ， 又 可 细 分 为 两 部 分 : 显 式 反馈 (explicit feedbacks) 数据 和 隐 式 反馈 (implicit feedbacks) 数据 。 显 式 有 反馈 是 指 能 明确 表达 用 户 好 恶 的 行为 数据 ， 如 用 户 对 某 商 品 的 购买 、 收 - 藏 、 评 
分 等 数据 。 与 之 相反 ， 隐 式 反 馈 数 据 是 指 无 法 直接 体现 用 户 偏好 的 行为 ， 如 用 户 在 网 站 中 的 点 击 、 浏 览 、 停 留 、 跳 转 、 关 闭 等 行为 。 通 过 挖掘 显 式 反 馈 数 据 能 明确 把 握 用 户 的 偏好 ， 但 在 很 多 应 用 中 ， 显 式 
反馈 数据 通常 很 稀 琉 ， 导 致 对 用 户 偏好 的 挖掘 无 法 深入 。 这 个 问题 在 一 些 刚 上 线 的 应 用 ,或 者 偏 冷门 的 物品 或 用 户 身 上 反映 尤其 明显 。 在 这 种 情况 下 ， 用 户 的 隐 式 反馈 数据 就 显得 尤为 重要 。 因 为 虽然 用 户 
在 网 站 中 的 点 击 等 行为 很 庞杂 ， 但 其 中 蕴藏 了 大 量 信 息 。 在 2006~2008 年 进行 的 国际 著名 推荐 竞赛 Netflix Prize 中 ， 冠 军队 成 员 Yehuda Koren 发 现 将 用 户 租 用 影片 的 记录 ， 转 换 为 特征 向 量 注入 奇异 值 分 
解 算法 (SVD) 用 于 影响 用 户 兴趣 向 量 ， 能 够 很 好 地 提高 推荐 准确 率 。 


正则 化 参数 的 调整 : 从 1.1 版 本 开始 ， 在 解决 每 个 最 小 二 乘法 问题 时 ， 我 们 使 用 更 新 用 户 因子 时 用 户 生 成 的 评级 数量 或 更 新 产品 因子 时 产品 得 到 的 产品 评级 数量 ， 来 调整 正则 化 参数 lambda。 这 种 方法 
称 之 为 “ALS-WR”， 它 使 得 lambda 较 少 依赖 数据 集 的 规模 。 所 以 ， 我 们 能 够 把 从 抽样 数据 子 集 学 习 获 得 的 最 佳 参 数 应 用 到 | 数据 全 集中 。 


案例 : 加 载 评级 数据 。 数 据 每 行 由 一 个 用 户 、 一 个 产品 和 一 个 评分 组 成 。 假 定 评 级 信息 是 显 性 的 ， 所 以 使 用 默认 的 ALS.train O 方法 来 训练 。 最 后 计算 评级 预测 的 均 方 误差 来 评估 推荐 模型 。 


import org.apache.spark.MLlib.recommendation.ALS 

import org.apache.spark.MLlib.recommendation.MatrixFactorizationModel 
import org.apache.spark.MLlib.recommendation.Rating 

// 加 载 和 解析 数据 
val data = sc.textrFile("data/MLlib/als/test.data") 

val ratings = data.map( .split(',') match { case Array(user, item, rate) => 


Rating(user.toInt, item.toInt, rate.toDouble) 


}) 
// 使 用 ALS 构 建 推荐 模型 
val rank = 10 

val numIterations = 10 


val model = ALS.train(ratings, rank, numIterations, 0.01) 
// 在 评级 数据 上 评估 模型 
val usersProducts = ratings.map { case Rating (user, product, rate) => 
(user, product) 


val predictions - 
model.predict (usersProducts).map ( case Rating (user, product, rate) => 
((user, product), rate) 

) 
val ratesAndPreds = ratings.map ( case Rating (user, product, rate) => 
((user, product), rate) 

} .join (predictions) 


val MSE = ratesAndPreds.map ( case ((user, product), (rl, r2)) => 
val err = (rl - r2) 
err * err 

} .mean () 

println("Mean Squared Error = " + MSE) 


// 保存 和 加 载 模型 
model.save(sc, "myModelPath") 
val sameModel = MatrixFactorizationModel.load(sc, "myModelPatnh") 


如 果 评 级 矩阵 从 另外 一 个 信息 源 获 得 (如 从 其 他 信号 获得 ) ， 可 以 使 用 trainImplicit 方 法 以 获得 更 佳 结 果 : 


val alpha = 0.01 
val lambda - 0.01 
val model = ALS.trainlmplicit(ratings, rank, numIterations, lambda, alpha) 


4. 聚 类 算法 


聚 类 分 析 又 称 群 分 析 ， 它 是 研究 (样品 或 指标 ) 分 类 问题 的 一 种 统计 分 析 方 法 ， 同 时 也 是 数据 挖掘 的 一 个 重要 算法 。 聚 类 (cluster) 分 析 是 由 若干 模式 (pattern) 组 成 的 ， 通 常 ， 模 式 是 一 个 度量 
(measurement) 的 向 量 , 或 者 是 多 维 空间 中 的 一 个 点 。 聚 类 分 析 以 相似 性 为 基础 ， 在 一 个 聚 类 中 的 模式 之 间 比 不 在 同一 聚 类 中 的 模式 之 间 具 有 更 多 的 相似 性 。 


MLlib 支 持 k-means 聚 类 算法 ， 这 是 将 数据 点 划分 为 预期 簇 个 数 的 最 常用 聚 类 算法 之 一 。MLlib 实 现 了 k-means++ 的 并 行 化 的 演变 版 本 k-means 荆 ， 该 算法 在 MLlib 中 实现 的 参数 有 : 
^k: Jg 28 69 ZR AMARE; 
- maxIterations: 算法 的 最 大 迭代 次 数 ; 
“initializationMode: 初始 化 方法 ， 即 使 用 随机 方法 还 是 通过 k-means| | 方法 进行 初始 化 ， 
runs: 运行 k-means 的 次 数 (k-means 并 不 保证 找到 一 个 全 局 最 优 解 ， 在 给 定数 据 集 上 多 次 运行 得 到 多 个 结果 时 ,程序 将 返回 最 后 的 那个 结果 ) ; 
- initializationSteps: k-means [算法 的 步 数 ; 
- epsilon: 即 用 于 认定 k-means 收 争 的 最 小 距离 。 


SEDI: 首先 导入 和 解析 输入 数据 ， 之 后 使 用 k-means 对 象 将 各 数据 点 分 到 两 个 徐 中 。 将 类 徐 的 个 数 作 为 参数 传 给 算法 ， 然 后 计算 集群 内 均 方 差 总 和 。 可 以 通过 增加 k 值 来 降低 该 误差 。 事实 上 ， 当 kk 的 取 值 
理想 时 ，WSSSE 图 中 将 会 有 一 个 “低谷 点 ”。 


import org.apache.spark.MLlib.clustering.(KMeans, KMeansModel] 
import org.apache.spark.MLlib.linalg.Vectors 

// 加 载 和 解析 数据 
val data = sc.textFile("data/MLlib/kmeans data.txt") 

val parsedData = data.map(s => Vectors.dense(s.split(' ').map( .toDouble))).cache() 
// 使 用 k-means 算法 将 数据 聚集 成 2 个 类 

val numClusters = 2 

val numIterations = 20 

val clusters = KMeans.train(parsedData, numClusters, numIterations) 

// 评估 集群 内 计算 平方 误差 的 总 和 

val WSSSE = clusters.computeCost (parsedData) 

printin ("Within Set Sum of Squared Errors = " + WSSSE 
// 保存 和 加 载 模型 
clusters.save(sc, "myModelPatn") 

val sameModel = KMeansModel.load(sc, "myModelPatnh") 


— 


另外 ， 还 有 一 些 现 有 算法 的 增强 : LDA 算 法 、 决 策 树 、ensemble 算 法 和 GM M 算 法 。 
5. 特 征 降 维 


特征 降 维 (feature dimension reduction) 是 一 个 从 初始 高 维特 征集 合 中 选 出 低 维 特征 集合 ， 以 便 根据 一 定 的 评估 准则 最 优化 缩小 特征 空间 的 过 程 ， 通 常 是 机 器 学 习 的 预 处 理 步骤 。 当 面临 高 维 数据 
时 ， 特 征 降 维 对 于 机 器 学 习 任务 非常 必要 ， 通 过 降 维 能 有 效 地 消除 无 天 和 宛 余 特征 ， 提 高 挖掘 任务 的 效率 ， 改 善 预测 精确 性 等 学 习性 能 ， 增 强 学 习 结果 的 易 理解 性 。MLlib 提 供 了 RowMatrix 用 于 降 维 。 下 
面 将 分 别 介绍 奇异 值 分 解 和 主 成 分 分 析 两 种 特征 降 维 方法 。 


奇异 值 分 解 将 一 个 矩阵 分 解 成 U、2 和 V。 它 们 满足 : A=UZVT，U 是 一 个 正 交 矩阵， 其 每 一 列 被 称 为 
值 。V 是 一 个 正 交 和 矩阵 ， 其 每 一 列 被 称 为 一 个 右 奇异 向 量 。 


个 左 奇异 向 量 ，Z 是 一 个 对 角 和 矩阵 ， 其 对 角 线 上 元 素 非 负 是 按 降序 排列 。 对 角 上 的 元 素 被 称 为 奇异 


对 于 大 的 和 矩阵， 我 们 通常 并 不 需要 进行 完全 的 因 式 分 解 ， 但 只 需要 靠 前 部 分 的 奇异 值 和 奇异 向 量 相关 联 。 这 样 能 节省 存储 空间 ， 去 噪声 并 且 降 低 了 子 和 矩阵 的 阶 数 。 
如 果 我 们 保持 k 奇 异 值 ， 那 么 由 此 产生 的 低 秩 和 矩阵 的 维度 将 是 : 


U: mXk, X: kXk, V: nXk 


性 能 分 析 : dnd Tomo ERHIUGE GREET VAM 1:848 BEAT A 08 3 So fo J- S16) 3E 09 RARA. d RUT] P 3 SL computeU 3X — XC E. T 5 A AEUE ETEAE TRU, METUA (VS) 
这 一 矩阵 乘积 得 出 。 实 际 计算 时 ， 程 序 会 自动 根据 计算 的 复杂 度 选择 不 同 的 方法 得 出 结果 : 


如 果 n 比 较 小 或 者 kK 相 对 n 来 说 比较 大 ， 那 么 我 们 会 先 计 算 格 拉 姆 敌阵 ， 然 后 在 Dtivet 本 地 计算 它 的 前 区 个 奇异 值 和 特征 值 。 其 代价 包括 一 次 在 Dtivet 和 各 个 Executot 本 地 上 的 一 次 复杂 度 为 D (n2) 的 存 


储 ， 外 加 一 次 Diivet 本 地 进行 的 复杂 度 为 DO (mk) 的 存储 。 


否则 ， 我 们 将 分 布 式 计 算 ， 然 后 将 其 作为 输入 通过 ARPACK 计 算 (ATA) 的 前 K 个 特征 值 和 特征 矩阵。ARPACK 的 计算 在 Driver 上 进行 。 这 个 过 程 需要 O_(K) 轮 ， 在 每 个 Executor 上 O (n) 存储 ， 以 及 
Driver 上 O (nk) 存储 。 


案例 : *HAEBESEATSVDi& À. 


import org.apache.spark.MLlib.linalg.Matrix 


import org.apache.spark.MLlib.linalg.distributed.RowMatrix 
import org.apache.spark.MLlib.linalg.SingularValueDecomposition 
// RowMatrix 类 包含 了 该 类 矩阵 
val mat: RowMatrix = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 计算 相应 排名 前 20 位 的 奇异 值 和 奇异 向 量 

val svd: SingularValueDecomposition[RowMatrix, Matrix] = mat.computeSVD(20, computeU = true) 
// The U factor is a RowMatrix. 

val U: RowMatrix = svd.U 

// 奇异 值 被 存储 在 本 地 维度 向 量 

val s: Vector = svd.s 

val V: Matrix = svd.V // The V factor is a local dense matrix. 


主 成 分 分 析 ， 以 下 简写 为 PCA (Principle Component Analysis) 。 用 于 提取 矩阵 中 的 最 主要 成 分 ， 剔 除 元 余数 据 ， 同 时 降低 数据 维度 。 现 实 世 界 中 的 数据 可 能 是 多 种 因数 晋 加 的 结果 ， 如 果 这 些 因 数 
是 线性 车 加 ，PCA 就 可 以 通过 线性 转化 ， 还 原 这 种 寺 加 ， 找 到 最 原始 的 数据 源 。 主 成 分 分 析 被 广泛 用 于 降 维 。 


MLlib 的 PCA 适 用 于 行 数 远 多 于 列 数 的 矩阵。 这 些 和 矩 阵 以 每 行 代表 一 条 记录 的 面向 行 格式 存储 。 下 面 给 出 一 个 案例 : 


案例 : 对 一 个 RowMattix 的 矩阵 进行 主 成 分 分 析 ， 然 后 利用 分 析 结 果 将 原始 的 向 量 投 影 到 一 个 低 维 空间 中 。 


import org.apache.spark.MLlib.linalg.Matrix 

import org.apache.spark.MLlib.linalg.distributed.RowMatrix 
val mat: RowMatrix = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
// 计算 10 个 主 成 分 
val pc: Matrix = mat.computePrincipalComponents (10) 
// 通过 10 个 主 成 分 ， 将 行 转 换 成 线性 空间 

val projected: RowMatrix = mat.multiply (pc) 


6 .特征 提取 与 转换 
特征 提取 与 转换 主要 包括 词 频 - 逆 文 档 频率 (TF-IDF) 、 词 向 量化 (Word2Vec) 、 标 准 化 、 模 型 适 配 、 范 数 化 ， 下 面 将 分 别 介绍 在 MLlib 中 这 几 种 方法 是 如 何 实现 的 。 


词 频 - 逆 文档 频率 ， 一 个 在 文本 控 折 中 广泛 应 用 的 特征 向 量化 方法 ， 它 能 反映 出 语料库 中 某 篇 文档 中 某 个 词 的 重要 性 。TF-IDF 的 主要 思想 是 : 如 果 某 个 词 或 短语 在 一 篇 文章 中 出 现 的 频率 TF 高 ， 并 且 在 
其 他 文章 中 很 少 出 现 ， 则 认为 此 词 或 者 短语 具有 很 好 的 类 别 区 分 能 力 ， 适 合用 来 分 类 。TF-IDF 实 际 上 是 : TF*IDF，TF 为 词 频 (Term Frequency) ，1DF 为 逆向 文件 频率 (Inverse Document 
Frequency) 。TF 表 示 词 条 在 文档 d 中 出 现 的 频率 。 


IDF 的 主要 思想 是 : 如 果 包 含 词 条 t 的 文档 越 少 ， 也 就 是 n 越 小 ，IDF 越 大 ， 则 说 明 词 条 t 具 有 很 好 的 类 别 区 分 能 力 。 如 果 某 一 类 文档 C 中 包含 词 条 t 的 文档 数 为 m， 而 其 他 类 包含 t 的 文档 总 数 为 kK， 显然 所 有 
包含 的 文档 数 n=m+k， 当 m 大 时 ，n 也 大 ， 按 照 IDF 公 式 得 到 的 IDF 的 值 会 小 ， 就 说 明 该 词 条 t 类 别 区 分 能 力 不 强 。 但 是 实际 上 ， 如 果 一 个 词 条 在 某 类 的 文档 中 频繁 出 现 ， 则 说 明 该 词 条 能 够 很 好 地 代表 这 类 
文本 的 特征 ， 这 样 的 词 条 应 该 给 它们 赋予 较 高 的 权重 ， 并 选 来 作为 该 类 文本 的 特征 词 以 区 别 于 其 他 类 文档 。 这 就 是 IDF 的 不 足 之 处 。 


在 一 份 给 定 的 文件 里 ， 词 频 指 的 是 某 一 个 给 定 的 词语 在 该 文件 中 出 现 的 频率 。 这 个 数字 是 对 词 数 (term count) 的 归 一 化 ， 以 防止 它 偏向 长 的 文件 。 (同一 个 词语 在 长 文件 里 可 能 会 比 在 短文 件 里 有 更 
高 的 词 数 ， 而 不 管 该 词语 重要 与 否 。) 对 于 在 某 一 特定 文件 里 的 词语 tj 来 说 ， 它 的 重要 性 可 表示 如 下 : 


n. 
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其 中 ，ni， 悍 该 词 在 文件 d 中 的 出 现 次 数 ， 而 分 母 则 是 在 文件 dj 中 所 有 字 词 的 出 现 次 数 之 和 。 


逆向 文件 频率 是 一 个 词语 普遍 重要 性 的 度量 。 某 一 特定 词语 的 IDF， 可 以 由 文件 总 数 除 以 包含 该 词语 之 文件 的 数目 ， 再 将 得 到 的 商 取 对 数 得 到 : 


D| 
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J 


idf, — log 


其 中 ，|D| 是 语料库 中 的 文件 总 数 ; |j: tiE dj 是 包含 词语 t 的 文件 数目 (Bn; jz0 的 文件 数目 ) ， 如 果 该 词语 不 在 语料库 中 ， 就 会 导致 分 母 为 零 ， 因 此 一 般 情况 下 使 用 1+ 必 : tiedjl. 
然后 tfidfi, j=tfi, jxidfi， 某 一 特定 文件 内 的 高 词语 频率 ， 以 及 该 词语 在 整个 文件 集合 中 的 低 文 件 频率 ， 可 以 产生 高 权重 的 TF-1IDF。 因 此 ，TF-IDF 倾 向 于 过 渡 掉 常见 的 词语 ， 保 留 重要 的 词语 。 


使 用 散 列 技巧 来 实现 词 频 。 运 用 一 个 哈 希 函数 将 原始 特征 映射 到 一 个 特征 索引 值 。 然 后 基于 映射 索引 值 来 计算 词 频 。 这 种 方法 避免 计算 全 局 “ 词 - 索 引 ” 上 映射 ， 而 在 超大 语 料 中 计算 全 局 “ 词 - 索 引 ”的 
代价 非常 高 。 这 种 方法 代价 是 会 出 现 潜在 的 哈 希 冲突 一 即 不 同 原始 特征 被 映射 到 同一 个 哈 希 值 ， 从 而 变 成 同一 个 词 。 为 了 降低 这 种 冲突 概率 ， 我 们 增加 了 目标 特征 的 维度 ， 即 在 哈 希 表 中 散 列 桶 的 数量 。 
默认 的 特征 维 数 是 220= 1048576。 


注意 : MLIib 并 不 提供 文本 分 割 工具 ， 我 们 建议 用 户 参考 “斯 坦 福 自然 语言 处 理 组 ”和 “scalanlp/chalk 开 源 项 目 ”。 


案例 : 词 频 和 逆 文 档 频率 在 HashingTF 和 IDF 中 实现 。HashingTF 接 收 一 个 RDD[Iterable[ 省 实例 作为 输入 。 每 个 记录 都 是 一 个 可 遍历 的 Stting 或 其 他 类 型 。 


import org.apache.spark.rdd.RDD 
import org.apache.spark.SparkContext 
import org.apache.spark.MLlib.feature.HashingTF 
import org.apache.spark.MLlib.linalg.Vector 


val sc: SparkContext = http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 

// 加 载 文档 (每 行 ] 个 ) 

val documents: RDD[Seq[String]] sc.textFile "http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...").map( .split(" ").tc 
val hashingTF = new HashingTF () E E 

val tf: RDD[Vector] = hashingTF.transform (documents) 


然而 ， 应 用 HashingTF 只 需要 遍历 一 次 数据 ， 而 应 用 IDF 则 需要 遍历 两 次 : 第 一 次 用 于 计算 IDF 向 量 ， 而 第 二 次 使 用 IDF 调 整 词 频 。 


import org.apache.spark.MLlib.feature.IDF 
tf.cache|() 
val idf = new IDF().f F 


t(t 


) 
idf.transform(tf) 


1 
val tfidf: RDD[Vector] 


词 向 量化 (Word2Vec) : Word2Vec 用 于 将 词 转换 为 分 布 式 词 向 量 格式 。 分 布 式 格式 的 主要 优点 在 于 向 量 空间 中 近似 词 相 近 ， 使 得 更 易 生 成 小 说 模式 且 模 型 评估 更 加 健壮 。 (分 布 式 交涉 的 主要 优势 
是 ， 相 似 的 词 在 向 量 空 间 有 密切 的 关系 ， 这 使 得 概括 小 说 模式 更 容易 且 模 型 估计 更 健壮 。) 分 布 式 向 量 格式 在 自然 语言 分 析 得 到 了 广泛 的 运用 ， 如 命名 实体 识别 、 消 歧 、 解 析 、 标 记 标 签 和 机 器 翻译 等 。 


MLIib 使 用 skip-gram 模 型 来 实现 Word2Vec。 对 于 skip-gram， 训 练 的 目标 是 学 习 到 同一 句子 中 最 大 能 预测 其 环境 的 词 用 向 量 表示 。 从 数学 上 来 说 ， 给 定 一 系列 词 w1，w2，w3，…，wn，ski-gram 模 
型 最 大 化 对 数 似 然 均值 : 


] T j=k | 
T 2. logp( w, w,) 


t=] j--—k 


其 中 ，k 是 训练 窗口 大 小 。 


在 skip-gram 模 型 中 ， 每 个 词 W 都 与 两 个 向 量 uw 和 vw 相关 ，uw 和 vw 表示 词 W 自 身 及 其 上 下 文 。 正 确 的 概率 预测 词 wi 给 定单 词 wj 将 取决 于 softmax 模 型 : 


/ exp(u w,Vw,) 
pw, |w) = 一 人 人 


2, exp(u, V, ) 


其 中 ，V 是 词 量 大 小 。 


在 skip-gram 模 型 中 使 用 softmax 的 代价 很 高 ， 因 为 logp (wiw) 的 计算 量 随 着 V 线 性 增长 ， 而 V 很 容易 就 达到 百 万 级 。 为 了 加 快 训练 Word2Vec 的 速度 ， 我 们 使 用 分 层 softmax， 该 方法 可 以 使 算法 复 
杂 度 logp (wiwj) 降低 到 O (log (V) ) 。 


案例 : 加 载 文本 数据 ， 将 其 解析 成 一 个 格式 为 SeqfStting 的 RDD， 构 建 一 个 实例 Word2Vec， 然 后 将 输入 数据 匹配 为 一 个 Word2VecModel 模 型 。 最 后 ， 我 们 展示 了 给 定 词 最 同 义 的 40 个 词 。 为 了 运行 
例 ， 首 先 需要 下 载 text8 数 据 并 解压 到 目标 目录 。 


import org.apache.spark. 
import org.apache.spark.rad. 
import org.apache.spark.SparkContext. 

import org.apache.spark.MLlib.feature.Word2Vec 

val input = sc.textFile("text8").map(line => line.split(" ").toSeg) 
val word2vec = new Word2Vec () 
val model = word2vec.fit (input) 

val synonyms = model.findSynonyms ("china", 40 
or((synonym, cosineSimilarity) «- synonyms) 
println(s"S$synonym $cosineSimilarity") 


} 


) 
{ 


特征 标准 化 : 在 训练 集 上 对 每 列 使 用 统计 分 析 技 术 ， 将 数据 调整 为 标准 差 的 倍数 以 及 (或 ) 去 均值 。 这 是 一 种 非常 常见 的 预 处 理 步骤 。 

例如 ， 在 特征 具有 单位 变化 以 及 (或 ) 零 均 值 时 ， 支 持 向 量 机 中 的 RBF 内 核 或 L1、L2 正 则 化 的 线性 模型 会 拟 合 得 更 好 。 

标准 化 可 以 在 优化 过 程 中 加 快 收敛 速度 ， 也 能 够 在 一 个 巨大 值 发 生 剧烈 影响 时 ， 让 特征 免 于 被 训练 。 

标准 化 的 构造 函数 具有 下 列 参数 : 

: withMean: 默认 值 是 False。 在 调整 前 将 数据 中 心 化 处 理 。 它 的 输出 是 密集 的 。 如 果 输 入 是 稀疏 的 ， 则 会 抛 出 一 个 异常 。 

< withStd: 默认 值 是 True， 将 数据 调整 为 标准 差 。 

在 StandardScaler 中 提供 了 fit 方 法 ，RDDIVector] 是 它 的 输入 格式 ， 进 行 统计 分 析 ， 然 后 输出 一 个 标准 差 倍 数 以 及 (或 ) 去 均值 的 模型 ， 输 出 的 模型 取决 于 如 何 配 置 StandardScaler。 


案例 : 下 面 的 示例 演示 了 怎样 加 载 一 个 LIBSVM 格 式 的 数据 集 ， 将 特征 标准 化 ， 转 换 后 的 新 特征 是 标准 差 的 倍数 以 及 (或 ) AARAA. 


import org.apache.spark.SparkContext. 

import org.apache.spark.ML] ib.feature. StandardScaler 
import org.apache.spark.MLlib.linalg.Vectors 

import org.apache.spark.MLlib.util.MLUtils 


val data = MLUtils.loadLibSVMFile (sc, "data/MLlib/sample libsvm data.txt") 

val scalerl = new StandardScaler().fit(data.map(x => x.features)) 

val iler? e = new StandardScaler (withMean = true, withStd — true).fit(data.map(x -» x.features)) 
// datal 是 标准 方差 

val datal = data.map(x => (x.label, scalerl.transform(x.features))) 

// BARRIERE RAE, HAREE RA LU JP, data2MW E MZ Z de B 

val data2 = data.map(x => (x.label, scaler2.transform(Vectors.dense (x.features.toArray)))) 


范 数 化 : 将 独立 的 样本 调整 为 具有 Lp 范 数 。 这 是 在 文本 分 类 或 聚 类 中 广泛 应 用 的 一 个 操作 。 例 如 ， 两 个 TF-IDF 向 量化 L* (LP, p-2) 的 乘积 是 向 量 的 余弦 相似 性 。 
范 数 化 的 构建 函数 具有 以 下 参数 : 在 LP 空间 范 数 化 ，p 默 认 值 为 2 

在 范 数 化 中 提供 了 向 量化 变换 方法 ， 它 能 够 将 一 个 Vector 变 换 成 男 一 个 Vector， 也 能 够 将 RDDIVector] 变 换 成 一 个 新 的 RDDIVector]。 

注意 : 如 果 输 入 的 模 数 是 0， 它 将 返回 原 值 。 


案例 : 下 面 的 示例 演示 了 如 何 加 载 一 个 LIBSVM 格 式 的 数据 集 ， 将 其 分 别 以 L? 范 数 化 和 L 范 数 化 。 


import org.apache.spark.SparkContext. 

import org.apache.spark.MLlib.feature.Normalizer 

import org.apache.spark.MLlib.linalg.Vectors 

import org.apache.spark.MLlib.util.MLUtils 

val data = MLUCils. loadLibSVMFile (sc, "data/MLlib/sample libsvm data.txt") 
val normalizerl = new Normalizer() 
val normalizer2 = new Normalizer(p = Double.PositiveInfinity) 
// qatal 的 每 个 抽样 将 被 规范 化 使 用 SL^2$ 范式 
val datal = data.map(x => (x.label, normalizerl.transform(x.features))) 
// data2 的 每 个 抽样 将 被 规范 化 使 用 SL^\infty$ 范 式 
val data2 = data.map(x => (x.label, normalizer2.transform(x.features))) 


7. 频 繁 项 挖掘 
挖掘 频繁 项 目 、 项 目 集 、 子 序列 ， 或 其 他 子 结构 ， 通 常 是 第 一 步 分 析 大 规模 数据 集 ， 也 是 长 期 以 来 数据 挖掘 研究 的 一 个 方向 。 


MLIib 包 里 的 频繁 项 挖掘 算法 包括 : FP-growth 算 法 、 关 联 规则 (Association Rules) 、PrefixSpan 算 法 。 


8. 优 化 器 
梯度 下 降 : Gradient descent， 解 决 具 有 minv c 愉 人 形式 优化 问题 的 最 简单 方法 是 梯度 下 降 。 这 些 第 一 类 优化 器 (包括 梯度 下 降 和 它 的 随机 变 体 ) 非常 适用 于 大 规模 的 分 布 式 计算 。 


梯度 下 降 方 法 解决 的 是 一 个 函数 局 部 最 优化 问题 ， 它 沿 着 坡度 最 强 的 方向 迭代 前 进 ， 该 方向 是 该 函数 在 当前 点 的 导 函 数 的 负 值 ( 称 之 为 梯度 ) ， 即 当前 的 参数 化 值 。 如 果 目 标 函 数 并 不 是 处 处 可 导 ， 但 
依然 是 图 的 ， 于 是 存在 一 个 子 梯度 (梯度 概念 的 延伸 ) ， 蔡 代 副 近 方向 。 在 任何 场景 中 ， 计 算 一 个 数据 集 的 梯度 或 子 梯度 代价 很 高 ,为 了 计算 所 有 缺失 值 的 贡献 度 ， 它 需要 遍历 整个 数据 集 。 


随机 梯度 下 降 : 目标 函数 可 以 用 一 个 和 值 来 表达 优化 问题 ， 特 别 适 合 使 用 随机 梯度 下 降 方法 解决 。 在 我 们 的 场景 里 ， 即 为 在 监督 学 习 中 广泛 应 用 的 优化 公式 : 
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因为 缺失 值 一 般 记 为 每 个 数据 点 中 个 别 缺失 值 的 平均 值 。 


随机 子 梯度 是 在 一 个 向 量 中 一 次 随机 化 选择 ， 但 我 们 期 望 得 到 原始 梯度 函数 的 一 个 真正 的 子 梯度 。 机 会 均等 地 选择 一 个 数据 点 ie[1，.….，n]， 我 们 得 到 上 面 公式 的 一 个 随机 子 梯度 ， 其 关于 Ww 的 公式 


是 : 
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。 此 外 ，** 是 正则 化 其 R(W) 的 一 个 子 梯度 ， 即 x o ”并 不 依赖 于 哪个 随 
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96. ”。 于 是 ,运行 SGD 就 是 简单 地 沿 着 梯度 下 降 / ;相反 的 方向 前 进 ， 即 : 


/ L',e pa si 
其 中 ， 人 ie Rd 是 由 第 i 个 数据 点 决定 的 损失 函数 的 一 个 部 分 的 一 个 子 梯度 ， 其 公式 为 “ A 


机 数据 点 被 选中 。 当 然 ， 期 望 在 对 ie [1，...，nj 的 随机 选择 时 ， 我 们 得 到 的 /是 原始 目标 函数 人 的 子 梯度 ， 即 
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Stepsize: 参数 Y 是 步 长 ， 在 默认 实现 中 ， 随 着 迭代 次 数 逐 渐 降 低 ， 即 在 第 t 次 迭代 时 ， , ， 这 里 的 s 是 输入 参数 ，s=stepSize。 在 实践 中 ， 为 SGD 选 择 最 佳 步 长 通 
主题 。 


， 这 也 是 一 个 活跃 的 研究 
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近似 更 新 ， 在 逐步 逼近 过 程 中 ， 除 了 正则 化 因子 的 子 梯度 R (w) 外 ， 在 某 些 场景 下 ， 一 种 蔡 代 方案 是 使 用 近似 操作 替代 。 对 L1 正 则 化 来 说 ， 其 近似 操作 有 软 阔 值 提供 。 


1 = | = 
—— W < qt. 
分 布 式 SGD 的 更 新 模式 : 在 梯度 下 降 中 实现 的 SGD， 对 样本 使 用 简单 (分布) 抽样 。 针 对 第 一 类 优化 问题 的 损失 函数 : OU - in Qn ~ ”是 一 个 真正 的 子 梯度 ， 但 这 要 求 访问 数据 全 集 ， 解 
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决 方案 是 使 用 参数 miniBatchFraction 参 数 指定 全 集 数据 的 一 个 子 集 。 在 子 集 的 梯度 均值 ， 即 | 3 | 2 是 一 个 随机 梯度 。 在 这 里 ，S 是 一 个 大 小 为 |S|=miniBatchFraction*n 的 抽样 子 集 。 在 每 次 迭代 中 ， 
在 分 布 式 数据 集 (RDD) 上 的 抽样 ， 就 像 从 每 个 工作 节点 计算 部 分 和 值 一 样 ， 有 标准 的 Spark 子 例 程 实现 。 


如 果 抽 样 比例 miniBatchFraction 设 置 为 1， 那 么 在 每 一 次 运 代 会 得 到 严格 意义 上 的 梯度 ( 子 梯度 ) 。 在 这 种 场景 下 ， 在 逐步 逼近 时 没有 随机 问题 和 变 体 问题 。 在 另 一 个 极端 ， 如 果 miniBatchFraction 
设置 得 非常 小 ， 以 至 于 仅仅 抽样 到 一 个 点 ， 即 |S|=miniBatchFraction*n=1， 那 么 算法 就 等 价 于 标准 的 SGD。 在 那 时 ， 逐 步 到 近 就 是 直接 依赖 于 对 数据 点 进行 抽样 的 平衡 。 


L-BFGS (Limited-memory BFGS) : L-BFGS 是 quasi-Newton 方 法 体系 中 的 一 个 优先 算法 ， 用 于 解决 具有 Ilinv < xe) 格式 的 优化 问题 。L-BFGS 使 用 一 个 二 元 方程 来 近似 目标 函数 ， 而 不 是 通过 对 
目标 函数 求 二 阶 偏 导 数 构建 Hessian 和 矩阵 。Hessian 和 矩阵 使 用 前 一 次 的 梯度 评估 来 近似 模拟 ， 所 以 在 Newton 方 法 计算 Hessian 时 没有 纵向 拓展 问题 ( 即 训 | 练 特征 的 数量 ) 。 相 应 地 ， 与 其 他 第 一 类 优化 比 
i2, L-BFGSISRGSSEDURUSIR. 
9.MLlib 实 现 的 优化 

在 MLlib 中 ， 梯 度 下 降 包括 底层 组 件 随 机 梯度 下 降 ， 基 于 它 开发 了 不 同 的 机 器 学 习 算 法 。SGD 类 GradientDesent 要 设置 下 列 参 数 : 

: Gradient 是 计算 被 优化 函数 随机 梯度 的 类 。MLlib 包 括 常 用 损失 函数 的 梯度 类 ， 如 hinge，logistic，least-squates。 梯 度 类 的 输入 包括 一 个 训练 样本 、 它 的 类 标签 ， 以 及 当前 参数 值 。 
: Updatet 是 执行 实际 梯度 逼近 的 类 ， 即 在 每 次 迭代 中 根据 损失 值 更 新 权重 。Updatet 也 具有 为 正则 化 因子 更 新 权重 的 功能 。MLIib 既 包括 用 于 无 正则 化 场景 的 Updatert， 也 包括 用 于 LI1 和 L2? 正 则 化 的 


Updater; 


stepSize 
:stepSize 是 为 梯度 下 降 指 定 初始 步 长 的 标 度 值 。 在 MLlib 中 ， 所 有 Updater 在 第 t 步 使 用 一 个 步 长 N 


- numlterations 是 迭代 次 数 。 
“regParam 是 使 用 L1 和 2 正则 化 时 的 正则 化 参数 。 
-miniBatchFraction 是 在 每 次 迭代 中 ， 用 于 计算 梯度 方向 的 抽样 比例 ， 黑 认 值 是 1。 


L-BFGS 目 前 是 MLlib 中 的 一 个 底层 优化 组 件 。 如 果 想 在 机 器 学 习 算 法 (如 线性 回归 和 逻辑 回归 ) 中 使 用 L-BFGS， 那 必须 传递 一 个 梯度 目标 六 数 ， 以 及 一 个 自 优化 的 更 新 器 ， 这 个 优化 器 代 蔡 训 练 
API (如 LogisticRegressionWithSGD) 。 自 从 在 LIUpdater 中 添加 了 梯度 下 降 的 软 阔 值 逻 辑 后 ， 不 能 再 使 用 L1Updater 进 行 L1 正 则 化 。 实 现 L-BFGS 的 LBFGS.runLBFGS 方 法 含有 如 下 参数 : 


* Gradient 是 计算 被 优化 函数 随机 梯度 的 类 。MILlib 包 括 常 用 损失 函数 的 梯度 类 ， 如 hinge.logistic，least-squares。 梯 度 类 的 输入 包括 一 个 训练 样本 、 它 的 类 标签 ， 以 及 当前 参数 值 。 


:Updatet 是 L-BFGS 中 为 正则 化 要 素 计 算 梯度 和 目标 函数 损失 的 实现 类 。MLlib 既 包括 用 于 无 正则 化 场景 的 Updaterf， 也 包括 用 于 Li 和 IL> 正 则 化 的 Updatet。 


: numCottections: 是 在 L-BFGS 中 更 新 时 的 修正 数 。 建 议 为 10。 

: maxNumlterations: 是 LBFGS 的 最 大 迭代 次 数 。 

` regParam: 是 使 用 正则 化 时 的 正则 化 参数 。 

该 方法 的 返回 值 是 一 个 二 元 组 。 第 一 个 元 素 是 列 和 矩阵 ， 值 为 每 个 特征 的 权重 ; 第 二 个 元 素 是 数组 ， 值 为 每 次 迭代 时 的 损失 量 。 


案例 : 使 用 L-BFGS 优 化 器 训练 一 个 正则 化 的 二 元 逻辑 回归 模型 。 


import org.apache.spark. SparkContext 

import org.apache.spark.MLlib.evaluation.BinaryClassificationMetrics 

import org.apache.spark.MLlib. linalg. Vectors 

import org.apache.spark.MLlib.util.MLUtils 

import org.apache.spark.MLlib.classification.LogisticRegressionModel 

import org.apache.spark.MLlib.optimization.(LBFGS, LogisticGradient, SquaredLl2Updater] 
val data = MLUtils.loadLibSVMFile (sc, "data/MLlib/sample libsvm data.txt") 

val numFeatures - data.take(1) (0).features.size 


// 按照 训练 数据 60%$ 和 测试 数据 40%$ 切 分 数据 
val splits = data.randomSplit (Array (0.6, 0.4), seed = 111) 
// 附加 1 到 训练 数据 
val training = P AA => (x.label, MLUtils.appendBias (x.features))).cache() 
val test = splits (1) 
// 运行 训 AO RR 
val numCorrections = 10 
val convergenceTo]l = le-4 
val maxNumIterations = 20 
val regParam = 0. 
val initial WeightsWithIntercept = Vectors.dense (new Array [Double] (numFeatures + 1)) 
val (weightsWithIntercept,loss) = LBFGS.runLBFGS( 

training, 

new LogisticGradient(), 

new Squaredl2Updater(), 

numCorrections, 


convergenceTol, 
maxNumIterations, 
regParam, 
initialWeightsWithIntercept) 
val model = new LogisticRegressionModel ( 


Vectors.dense (weightsWithIntercept.toArray.slice(0, weightsWithIntercept.size - 1)), 
weightsWithIntercept (weightsWithIntercept.size - 1)) 

// ARRA 3 BAE 

model.clearThreshold() 

// 在 测试 集 上 计算 原始 得 分 

val scoreAndLabels = test.map { point => 

val score = model.predict (point.features) 
(score, point.label) 

li 

// 获取 评价 指 标 

val metrics = new BinaryClassificationMetrics (scoreAndLabels) 

val auROC = metrics.areaUnderRCC () 

println("Loss of each step in training process") 

loss.foreach (println) 

println("Area under ROC = 


" + auROC) 


84 ML 库 


spark 的 ML 库 基 于 DataFrame 提 供 高 性 能 API， 帮 助 用 户 创建 和 优化 实用 的 机 器 学 习 流 水 线 (Pipeline) ， 包 括 特征 转换 独 有 的 Pipelines APl。 相 比较 MLlib， 变 化 主要 体现 在 : 
1) 从 机 器 学 习 的 Library 开 始 转向 构建 一 个 机 器 学 习 工 作 流 的 系统 ，ML 把 整个 机 器 学 习 的 过 程 抽象 成 Pipeline， 一 个 Pipeline 是 由 多 个 Stage 组 成 ， 每 个 Stage 由 Transformer 或 者 Estimator 组 成 。 


2) ML 框架 下 所 有 的 数据 源 都 基于 DataFrame， 所 有 模型 都 基于 Spark 的 数据 类 型 表示 ，ML 的 API 操 作 也 从 RDD 向 DataFrame 全 面 转变 。 


8.4.1 主要 概念 


Spark ML 针对 机 器 学 习 采 用 标准 化 AP1， 使 得 将 多 种 算法 结合 到 一 个 统 水 线 (Pipeline) 变 得 容易 。Spark ML 关键 API 包 括 : 


DataFrame: Spark ML 将 Spark SQL 的 DataFrame 作 为 一 个 ML 数据 集 使 用 ， 支 持 多 种 数据 类 型 。 一 个 DataFrame 可 以 有 不 同 的 列 存储 文本 (text) 、 特 征 向 量 (feature vectors) 、 真 实 标签 (true 
labels) 和 预测 (predictions) 。 


Transformer: Transformer 是 实现 一 个 DataFrame 转 换 成 另 一 个 DataFrame 的 算法 。 例 如 ， 一 个 ML 模型 是 实现 特征 DataFrame 到 预测 DataFrame 的 变换 。 
Estimator: Estimator 是 适 配 一 个 DataFrame， 产 生 另 一 个 Transformer 的 算法 。 例 如 ， 一 个 学 习 算 法 是 训练 一 个 DataFrame， 并 产生 一 个 模型 的 评估 。 
Pipeline: Pipeline 是 指定 连接 多 个 Transformers 和 Estimators 的 ML 工作 流 。 


Parameter: 全 部 的 Transformers 和 Estimators 共 享 一 个 指定 Parameter 的 通用 APl。 


1.DataFrame 


机 器 学 习 可 以 应 用 于 多 种 数据 类 型 ， 如 向 量 、 文 本 、 图 像 和 结构 化 数据 。Spark ML 采用 Spark SQL 的 DataFrame 支 持 多 种 基本 和 结构 化 数据 ， 包 括 Spark SQL 的 支持 数据 类 型 和 ML 向 量 类 型 。 一 个 
DataFrame 可 以 通过 一 个 规则 的 RDD 创 建 ，DataFrame 的 列 可 以 使 用 文本 (text) 、 特 征 (features) 、 标 签 (label) 命名 。 


2.Pipeline 组 件 


Transformer: 一 个 Transformer 包 含 特征 转换 (feature transformers) 和 被 学 习 模 型 (learned models) 。 从 技术 上 讲 ， 一 个 Transformer 实 现 了 transform () 方法 ， 该 方法 转换 一 个 DataFrame 
成 男 一 个 DataFrame， 通 常 被 追加 一 个 或 者 更 多 列 。 


例如 ， 一 个 特征 转换 可 能 取 一 个 DataFrame， 读 一 个 列 (如 文本 ) ， 将 其 映射 到 一 个 新 列 (如 特征 向 量 ) ， 并 输出 一 个 映射 了 附加 列 的 新 DataFrame。 一 个 学 习 模 型 可 能 取 一 个 DataFrame， 读 包 合 
特征 向 量 的 列 ， 预测 (predict) 每 个 特征 向 量 的 标签 ， 并 输出 一 个 预测 标签 附加 列 的 新 DataFrame。 


Estimator: 一 个 Estimator 是 一 个 学 习 算 法 ， 或 任何 适合 的 算法 ， 或 训练 的 数据 。 从 技术 上 讲 ， 一 个 Estimator 实 现 了 fit () 方法 ， 该 方法 接受 一 个 DataFrame 能 够 产生 一 个 Transformer 模 型 
例如 ， 一 个 学 习 算法 像 LogisticRegression 是 一 个 Estimator， 调 用 fit () 训练 一 个 Logistic-Regression 模 型 ， 是 一 个 Transformer。 


Pipeline 组 件 属 性 : Transformer 的 transform () 和 Estimator 的 fit () 都 是 无 状态 的 。 任 何 一 个 Transformer 和 Estimator 都 有 一 个 唯一 的 ID， 在 指定 参数 时 非常 有 用 。 


3.Pipeline 
在 机 器 学 习 ， 流 水 线 通常 是 指 运行 一 系列 算法 的 过 程 ， 并 从 数据 中 学 习 。 例 如 ， 一 个 简单 的 文本 文档 处 理工 作 流程 可 能 包括 以 下 几 个 阶段 : 
1) 将 每 个 文档 的 文本 切 分 成 单词 ， 
2) 将 每 个 文档 单词 转换 成 一 个 数值 特征 向 量 ; 
3) 使 用 特性 向 量 和 标签 ， 学 习 一 个 预测 模型 ; 
4) Spark ML 代表 一 个 作为 流水 线 的 工作 流 ， 由 一 系列 流水 线 阶 段 (PipelineStages，Transformers 和 Estimators) 组 成 ， 并 以 一 个 特定 的 顺序 运行 。 
一 个 流水 线 被 指定 为 一 系列 由 Transformer 或 Estimator 组 成 的 阶段 (stages) 。 这 些 阶段 按照 顺序 运行 ， 输 入 的 DataFrame 在 运行 的 每 个 阶段 进行 转换 。 
在 Transformer 阶 段 ， 在 DataFrame_ 上 调用 transform () 方法 。 
在 Estimator 阶 段 ， 调 用 fit O 方法 生成 一 个 Transformer， 并 且 Transformer 的 transform () 在 DataFrame 被 调用 。 


为 了 说 明 这 个 简单 的 文本 文档 工作 流 ， 图 8-4 是 流水 线 的 训练 时 间 使 用 图 。 
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图 8-4 流水 线 的 用 时 图 
图 中 第 一 行 代 表 流 水 线 的 三 个 阶段 。 前 两 个 阶段 (Tokenizer 和 HashingTF) 是 Transformers， 第 三 个 阶段 (LogisticRegression) 是 一 个 Estimator。 


底部 行 代表 流 经 流水 线 的 数据 流 ， 圆 柱 体 指 DataFrame。Pipeline.fit () 方法 被 具有 原始 文本 和 标签 的 原生 DataFrame 调 用 。Tokenizertransform () 方法 将 每 个 文档 的 文本 切 分 成 单词 ， 并 在 
DataFrame 新 增 一 个 单词 列 。HashingTF.transform () 方法 将 单词 列 转换 成 特征 向 量 ， 并 在 DataFrame 的 向 量 上 新 增 一 个 列 。 


现在 ， 既 然 LogisticRegression 是 一 个 Estimator， 流 水 线 首 先 调 用 LogisticRegression.fit () 方法 生成 一 个 LogisticRegressionModel， 如 果 流 水 线 有 更 多 的 阶段 ， 在 传递 DataFrame 到 下 一 个 阶段 之 
前 ,将 会 在 DataFrame 上 调用 LogisticRegressionModel 的 transform () 方法 。 


流水 线 是 一 个 Estimator。 因 此 ， 在 一 个 流水 线 的 fit () 方法 运行 之 后 ， 生 成 一 个 PipelineModel， 该 模型 是 一 个 Transformer。 


这 流水 线 模型 在 测试 时 使 用 ， 图 8-5 说 明了 测试 时 流水 线 模型 的 用 法 。 
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图 8-5 测试 时 PipelineModel 用 法 


图 中 ，PipelineModel 和 原始 流水 线 有 相同 阶段 (stages) ， 但 是 所 有 原始 流水 线 的 Estimator 都 变 成 Transformer。 当 在 测试 集 上 PipelineModel 的 transform () 方法 被 调用 时 ， 数 据 按 顺序 在 适应 的 
流水 线 中 流转 ， 每 个 阶段 的 transform () 方法 更 新 数据 并 传递 数据 到 下 一 个 阶段 。 


Pipeline 和 PipelineModel 确 保 训 练 数据 和 测试 数据 经 历 相同 的 功能 处 理 步骤 。 


DAG Pipeline; 流水 线 的 阶段 由 一 个 有 序数 组 指定 ， 这 里 给 出 的 示例 都 是 线性 流水 线 ， 也 就 是 说 ,流水线 的 每 个 阶段 都 是 使 用 前 一 阶段 产生 的 数据 。 支 持 创建 数据 流 图 是 有 向 无 环 图 (Directed 
Acyclic Graph, DAG) 的 非 线 性 流水 线 。 该 DAG 图 隐 式 地 指定 每 个 阶段 的 输入 和 输出 列 名 称 。 如 果 流 水 线 来 源 于 DAG， 那 么 必须 指定 阶段 拓扑 秩序 。 


运行 时 检查 (runtime checking) : 由 于 流水 线 可 以 操作 多 种 类 型 的 DataFrame， 不 能 使 用 编译 时 (compile-time) 类 型 检查 。Pipeline 和 PipelineModel 在 实际 运行 Pipeline 之 前 ,使 用 DataFrame 
模式 (schema) 进行 类 型 检查 ， 该 模式 描述 DataFrame 中 列 的 数据 类 型 。 


4 参数 


Spark ML 的 Estimator 和 Transformer 使 用 统一 的 API 指 定 参 数 。Param 是 一 个 命名 参数 ，ParamMap 是 一 组 (parameter, value) 集 。 


传递 参数 给 算法 以 下 有 两 种 方式 : 

1) 通过 实例 设置 参数 ， 如 果 |[ 是 一 个 LogisticRegression 的 实例 ， 可 以 调用 Ilr.setMaxlter (10) 使 Ir.fit () 最 多 使 用 10 次 迭代 。 

2) 传递 ParamMap 给 fit () 方法 或 transform () 方法 ，ParamMap 将 覆盖 之 前 通过 setter 方 法 指定 的 参数 。 

参数 属于 Estimator 和 Transformer 指 定 的 实例 。 例 如 ， 如 果 有 两 个 LogisticRegression 实 例 Im 和 Ir2， 可 以 构造 一 个 具有 两 个 maxlter 参 数 的 ParamMap: 


ParamMap (|Ir1.maxlter 一 10，lr2.maxlter 一 20) ， 这 在 同一 个 流水 线 中 两 个 算法 具有 maxlter 参 数 时 非常 有 用 。 


8.4.2 ”算法 库 与 实例 


Pipeline API 的 算法 最 主要 的 功能 是 转换 ， 适 合流 水 线 的 Transformer 抽 象 和 Estimator 抽 象 。 


以 前 ， 训 练 模型 (model) 之 前 ， 机 器 学 习 工 程 师 要 花费 大 量 时 间 进 行 特 征 (feature) 的 抽取 、 转 换 等 准备 工作 。 现 在 ML 提供 多 个 Transformer， 包 括 CountVectorizer、Discrete Cosine 
Transformation、MinMaxScaler、NGram、PCA、RFormula、StopWordsRemover 和 Vectorslicer 等 ， 极 大 地 提高 了 工作 效率 。 


下 面 列举 实例 对 ML 库 的 Estimator、Transformer 和 Param 进 行 说 明 。 


import org.apache.spark.ml.classification.LogisticRegression 
import org.apache.spark.ml.param.ParamMap 


impor! ica apache.spark.mllib.linalg.[(Vector, Vectors} 
impor! org. apache.spark.sql.Row 

// 从 (标签 ， 特 征 ) 二 元 组 中 准备 训练 数据 

val training = sqlContext.createDataFrame (Seq( 

(1.0, Vectors.dense(0.0, 1.1, 0.1)), 

(0.0, Vectors.dense(2.0, 1.0, ) ) 
(0.0, Vectors.dense(2.0, 1.3, 1.0)), 
(1.0, Vectors.dense(0.0, 2, ) ) 
)).toDF("label", "features") 

// 创建 一 个 Estimator 的 逻辑 回归 实例 

val lr = new LogisticRegression() 

// 打印 参数 、 文 档 和 默认 值 


printIn ("LogisticRegression parameters:Mn" + lr.explainParams() + "\n") 

// bx ccu a etd 

lr.setMaxIter (10).setRegParam(0.01) 

/ / IM bci A 学 习 一 个 LogisticRegression 模 型 

val modell .fit(training) 

/ / B Tnodell£ Adm (一 个 Estimator 生 成 的 Transformer) ， 我 们 可 以 看 到 过 程 中 fit () 方法 的 参数 
println("Model 1 was fit using parameters: " + modell.parent.extractParamMap) 


// 使 用 一 个 ParamMap 指 定额 外 的 参数 
val paramMap = ParamMap(lr.maxlIter -> 20) 
// 指定 一 个 参数 ， 重 写 原始 的 maxIter 
.Dut (lr.maxIter, 30) 
// 指定 多 个 参数 
put(lr.regParam -> 0.1, lr.threshold -> 0.55) 
ai 
val paramMap2 = ParamMap(lr.probabilityCol -> "myProbability") 
val paramMapCombined = paramMap ++ paramMap2 
// 使 用 paramMapCombined 参 数学 习 一 个 新 模型 ， paramMapCombined 重 写 前 面 设置 的 参数 
val model2 = lr.fit(training, paramMapCombined) 
println("Model 2 was fit using parameters: " + model2.parent.extractParamMap) 
// 准备 测试 数据 
val test = sqlContext.createDataFrame (Seq( 
(1.0, Vectors.dense(-1.0, 1.5, 1.3)), 
(0.0, Vectors.dense(3.0, 2.0, -0.1)), 
(1.0, Vectors.dense(0.0, 2.2, -1.5)) 
)).toDF("label", "features") 
// 4&Jl]Transformer.transform() 方法 在 测试 数据 上 进行 预测 
model2.transform(test) 
.select("features", "label", "myProbability", "prediction") 
.collect () 
.foreach ( case Row(features: Vector, label: Double, prob: Vector, prediction: Double) => 
println(s"($features, $label) -> prob-$prob, prediction-$prediction") 
} 


越 来 越 多 的 算法 也 作为 Estimator 搬 到 了 ML 下 面 ， 在 1.5 版 本 中 新 搬 过 来 的 有 Naive Bayes, K-means, Isotonic Regression, #0, Naive Bayes 原 来 的 模型 分 别 用 Array[Double] 和 
Array[Array[Double]] 来 存储 pi 和 theta， 而 在 ML 新 的 APl 中 使 用 的 是 Vector 和 Matrix 来 存储 。 


多 具体 内 容 ， 请 参考 ML 库 。 


8.5 本章 小 结 


本 章 介 绍 了 机 器 学 习 的 算法 库 Spark MLlib 和 Spark ML. 


Spark MLIib 实 现 了 较 多 并 行 算法 ， 学 习 成 本 相对 较 低 ， 适 合 学 习 各 种 算法 及 其 并 行 方法 。Spark MLlib 性 能 优越 ， 比 运行 在 Hadoop 上 的 机 器 学 习 算 法 的 速度 更 快 ; 而且 容易 和 其 他 组 件 (GraphX、 
Spark SQL, Spark Streaming) 进行 集成 ， 实 现 数据 的 共享 ; Spark MLlib 有 良好 的 易 用 性 ,一般 步骤 为 : 加 载 数据 、 把 数据 转换 成 所 需 的 格式 、 设 置 算法 参数 、 调 用 算法 模型 训练 、 预 测 、 模 型 评估 等 。 


Spark ML 库 基 于 DataFrame， 将 机 器 学 习 从 Library 转 向 构建 一 个 机 器 学 习 工 作 流 系统 ， 把 整个 机 器 学 习 过 程 抽象 成 Pipeline， 通 过 Transformer 和 Estimator 构 成 的 多 个 Stage 完 成 Pipeline 过 程 ， 将 工 
程 师 从 大 量 特征 抽取 、 转 换 工 作 中 解放 出 来 ， 专 注 于 算法 ， 极 大 地 提升 了 其 工作 效率 。 


第 9 章 ”GraphX 图 计算 框架 与 应 用 


就 能 沁 以 静 之 徐 清 ， 训 能 安 以 动 之 徐 生 。 
一 一 《道德 经 》 第 十 五 章 


俗话 说 ，“ 当 局 者 迷 ”， 但 并 不 意味 着 不 能 “ 清 ”、， 不 能 “ 生 ”。 谁 能 在 浑浊 中 安静 ， 唯 有 放 开 心胸 ， 保 持 一 种 平安 宁静 的 心态 ， 才 能 心 明 澄 清 ; 谁 能 在 安定 中 活动 ， 唯 有 保持 一 颗 纯 村 之 心 ， 才 能 自 


言 之 易 而 为 之 难 ， 学 习 大 数据 之 图 计算 ， 就 是 从 “ 浊 ” 中 找 出 “ 静 ” 的 规律 ， 达 到 “ 清 ” 的 境界 ; 从 “ 安 ” 中 找 出 “ 动 ”， 达 到 “ 生 ” 的 状态 。 


本 章 重 点 介绍 Spark 平 台中 的 GraphX 图 计算 框架 、GraphX 编 程 相 关 图 操作 和 图 算法 ， 以 及 针对 不 同 的 应 用 场景 进行 图 计算 应 用 实践 。 


9.1 概述 


GraphX 是 Spark 中 用 于 图 和 图 并 行 计算 的 组 件 ， 从 整体 上 看 ，GraphX 通 过 扩展 Spark RDD 引 入 一 个 新 的 图 抽象 ， 一 个 将 有 效 信息 放 在 顶点 和 边 的 有 向 多 重 图 。 为 了 支持 图 形 计 算 ，GraphX 公 开 了 一 系 
列 基本 运算 (如 subgraph、joinVertices 和 aggregateMessages) ， 以 及 一 个 优化 后 的 Pregel API 的 变形 。 此 外 ，GraphX 包 括 越 来 越 多 的 图 形 计算 和 builder 构 造 器 ， 以 简化 图 形 分 析 任 务 。 与 其 他 分 布 式 
图 计算 框架 相 比 ，GraphX 最 大 的 贡献 是 ， 在 Spark 之 上 提供 了 一 站 式 解决 方案 ， 可 以 方便 且 高 效 地 完成 图 计算 的 一 整套 流水 作业 ，。 


9.2 Spark GraphX 架 构 


在 GraphX 设 计时 ， 点 分 割 和 GAS 都 已 经 成 熟 ， 所 以 GraphX 一 开始 就 站 在 了 巨人 的 肩膀 上 ， 并 在 设计 和 编码 中 ， 针 对 这 些 问题 进行 了 优化 ， 在 功能 和 性 能 之 间 寻 找 最 佳 的 平衡 点 。 


每 个 Spark 子 模块 ， 如 同 Spark 本 身 一 样 ， 都 有 一 个 核心 的 抽象 。GraphX 的 核心 抽象 是 弹性 分 布 式 属性 图 (resilient distributed property graph)， 一 种 点 和 边 都 带 属 性 的 有 向 多 重 图 。 它 扩展 了 
Spark RDD 的 抽象 ， 如 图 9-1 所 示 ， 拥 有 Table 和 Graph 两 种 视图 ， 而 只 需要 一 份 物理 存储 。 而 这 两 种 视图 都 有 自己 独 有 的 操作 符 ， 从 而 获得 灵活 的 操作 和 较 高 的 执行 效率 。 
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图 9-1 Spark GraphX 中 Table 和 Graph 两 种 视图 


如 同 Spark 一 样 ，GraphX 的 代码 依然 非常 简洁 ， 如 图 9-2 所 示 ，GraphX 的 代码 结构 整体 如 下 。 
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EdgeRDD 
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实现 层 


EdgePartition 
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MessageToPartition 
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图 9-2 Spark GraphX 代 码 结构 


大 部 分 的 impl 包 都 是 围绕 Partition (EdgePartition, VertexPartition, MessagePartition, RoutingTablePartition) 的 优化 进行 实现 ， 分 割 的 存储 和 相应 的 计算 优化 ， 是 图 计算 框架 的 重点 和 难点 。 


9.3 GraphX 编 程 


属性 图 是 一 个 用 户 定义 顶点 和 边 的 有 向 多 重 图 。 有 向 多 重 图 是 一 个 有 向 图 ， 它 可 能 有 多 个 平行 边 共享 相 同 的 源 项 点 和 目标 顶点。 多 重 图 支持 并 行 边 的 能 力 简化 了 有 多 重 关系 的 建 模 场 


具有 64 位 长 度 的 唯一 标识 符 (VertexID) 作为 主键 。GraphX 并 没有 对 顶点 添加 任何 顺序 的 约束 。 同 样 ， 每 条 边 具 有 相应 的 源 顶点 和 目标 顶点 的 标识 符 。 
属性 表 的 参数 由 顶点 (VD) 和 边 (ED) 的 类 型 决定 。 
GraphX 优 化 了 顶点 和 边 的 类 型 表示 方法 ， 针 对 以 前 的 数据 类 型 (如 Int、Double 等 ) 通过 存储 在 专门 的 阵列 来 减 小 内 存 使 用 。 


在 某 些 情况 下 ， 可 能 希望 顶点 在 同一 个 图 中 有 不 同 的 属性 类 型 ， 这 可 以 通过 继承 来 实现 。 例 如 ， 以 用 户 和 产品 型 号 为 二 分 图 我 们 可 以 做 到 以 下 几 点 : 


class VertexProperty () 

case class UserProperty(val name: String) extends VertexProperty 

case class ProductProperty (val name: String, val price: Double) extends VertexProperty 
// The graph might then have the type: 

var graph: Graph[VertexProperty, String] = null 


和 RDD 一 样 ， 属 性 图 具有 不 可 变 、 分 布 式 和 容错 的 特点 。 对 属性 图 值 或 结构 的 改变 是 通过 生成 新 图 完成 的 。 原 图 的 主要 部 分 (属性 和 索引 ) 被 重用 ， 通 过 启发 式 执行 项 点 分 区 ， 


顶点 的 划分 ， 从 而 减少 新 属性 图 的 生成 成 本 ; 与 RDD 一 样 ， 在 发 生 故 障 的 情况 下 ， 图 中 的 每 个 分 区 都 可 以 重建 。 


从 逻辑 上 讲 ， 属 性 图 包含 自身 的 顶点 Vetex RDD[VD] 和 边 EdgeRDDIED] (RDD) ， 记 录 每 个 项 点 和 边 的 属性 。 因 此 ， 该 图 表 类 包含 该 图 的 顶点 和 边 。 


class Graph[VD, ED] { 
val vertices: VertexRDD[VD] 
val edges: EdgeRDD [ED] 

} 


类 VertexRDDIVD] 和 EdgeRDDI[ED] 分 别 继承 优化 了 的 RDD[ (VertexID, VD) ] 和 RDDI[Edge[ED]]， 提 供 各 地 图 的 计算 内 置 附加 功能 ， 并 充分 利用 内 部 优化 。 


每 个 顶点 是 由 


VAN 


在 不 同 的 执行 器 中 进行 


GraphX 公 开 了 属性 图 RDD 顶 点 (VD) 和 边 (ED) 的 视图 ， 这 是 与 每 个 顶点 和 边 相 关联 对 象 的 类 型 。GraphX 将 顶点 和 边 保存 在 优化 的 数据 结构 ， 并 且 为 这 些 数 据 结构 提供 额外 的 功能 ， 顶 点 和 边 分 别 


作为 VertexRDD 和 EdgeRDD 对 象 返回 。 


(1) VertexRDD 


VertexRDDI[A] 继 承 RDD[ (VertexID, A) ]， 并 增加 了 一 些 额 外 的 限制 ， 每 个 VertexID 只 出 现 一 次 。 此 外 ，VertexRDDI[A] 表 示 具 有 A 属 性 的 顶点 集合 。 


世 属 性 存储 在 一 个 可 重复 使 用 的 


哈 希 表 。 因 此 ， 如 果 两 个 VertexRDD 继 承 自 相同 的 基 类 VertexRDD (如 filter 或 mapValues) ， 它 们 可 以 在 常数 时 间 内 实现 合并 ， 而 不 需要 重新 计算 散 列 值 。 要 充分 利用 这 个 索引 数据 结构 ，VertexRDD 提 


供 了 以 下 附加 功能 : 


class VertexRDD[VD] extends RDD[(VertexID, VD)] { 
// 过 滤 Vertice 集 合 
def filter (pred: Tuple2[VertexlId, VD] => Boolean): VertexRDD[VDI] 
// 转换 值 而 不 改变 idqs (保存 内 部 索引 ) 
def mapValues[VD2] (map: VD => VD2): VertexRDD[VD2] 
def mapValues[VD2] (map: (VertexlId, VD) => VD2): VertexRDD[VD2] 
// 找 出 与 其 他 集合 相同 的 Vertex， 并 在 当前 集合 中 删除 
def diff(other: VertexRDD[VD]): VertexRDD[VD] 
// Join operators 利 用 内 部 索引 加 速 连接 (显著 


— 


def leftJoin[VD2, VD3] (other: RDD[(Vertexlid, VD2)])(f: (VertexId, VD, Option[VD2]) 
—» VD3): VertexRDD[VD3] 
def innerJoin[U, VD2] (other: RDD[(VertexId, U)])(f: (VertexlId, VD, U) => VD2): 


VertexRDD[VD2] 
// 使 用 RDD 的 索引 加 快 输入 数据 执行 'reduceByKey' 操 作 

def aggregateUsingIndex[VD2] (other: RDD[(VertexId, VD2)], reduceFunc: (VD2, VD2) 
=> VD2): VertexRDD[VD2] 


例如 ，filter 操 作 符 返回 一 个 VertexRDD。filter 是 通过 实现 BitSset， 从 而 复 用 索引 和 保持 能 快速 与 其 他 VertexRDD 实 现 连接 功能 。 类 似 的 是 ，mapValues 操 作 不 允许 map 阔 数 改变 VertexlD， 


复 用 同一 HashMap 中 的 数据 结构 。 当 |leftJoin 或 innerJoin 连 接 时 ，VertexRDD 派 生 自 同一 hashmap， 并 且 是 通过 线性 扫描 而 非 代 价 昂 贵 的 逐 点 查询 ，。 


aggregateUsinglndex 操 作 是 一 种 新 的 有 效 的 从 RDD[ (VertexID, A) ] 构 建新 的 VertexRDD 的 方式 。 从 概念 上 讲 ， 如 果 在 一 组 项 点 上 构建 了 一 个 VertexRDD[B]， 这 是 一 个 在 某 些 顶点 


RDD[ (VertexID，A) ] 的 超 集 ， 可 以 复 用 该 超 集 为 RDD[ (VertexID, A) ] 建 立 索 引 。 例 如 : 


val setA: VertexRDD[Int] = VertexRDD(sc.parallelize(0L until 100L).map(id => (id, 1))) 

val rddB: RDD[(Vertexld, Double)] = sc.parallelize(0L until 100L).flatMap(id => List((id, 1.0), (id, 2.0))) 
// 应 该 有 200 个 rddB 条 目 

rddB.count 
val setB: VertexRDD[Double] = setA.aggregateUsingIndex (rddB, to) 
// 应 该 有 100 个 rddB 条 目 
setB.count 
// A join B 应 该 是 最 快 的 

val setC: VertexRDD[Double] = setA.innerJoin(setB)((id, a, b) => a + b) 


(2) EdgeRDD 


从 而 可 以 


该 EdgeRDDI[IED，VD] 继 承 自 RDD[Edge[ED]， 以 各 种 分 区 策略 (PartitionStrategy) 将 边 划分 成 不 同 的 块 。 在 每 个 分 区 中 ， 边 属性 和 邻接 结构 分 别 存储 ， 这 使 得 更 改 属性 值 时 能 够 实现 最 大 限度 的 复 


EdgeRDD 是 提供 的 其 余 3 个 函数 : 


def mapValues[ED2] (f: Edge[ED] => ED2): EdgeRDD[ED2, VD] 

// 复 用 属性 和 结构 进行 Treverse 

def reverse: EdgeRDD[ED, VD] 

// 加 入 两 个 EdgeRDD 的 分 区 使 用 相同 的 分 区 策略 

def innerJoin[ED2, ED3] (other: EdgeRDD[ED2, VD])(f: (Vertexld, VertexId, ED, ED2) => ED3): EdgeRDD[ED3, VD] 


// 改变 属性 ,保留 邻接 结构 
2 Fe 


在 大 多 数 应 用 中 ， 我 们 发 现 ， 在 EdgeRDD 中 的 操作 是 通过 图 形 运 
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在 基 类 定义 的 RDD 类 操作 。 


9.3.1 ”GraphX 的 图 操作 
以 下 列 出 了 Graph 图 和 GraphOps 中 同时 定义 的 操作 。 为 了 简单 起 见 ， 定 义 为 Graph 的 成 员 函 数 。 


/** 总 结 属性 图 的 方法 */ 

class Graph[VD, ED] { 
// 图 的 属性 
val numEdges: Long 
val numVertices: Long 
val inDegrees: VertexRDD[Int] 
val outDegrees: VertexRDD [Int] 
val degrees: VertexRDD [Int] 
// 图 作为 结合 的 视图 
val vertices: VertexRDD[VD] 
val edges: EdgeRDD[ED, VD] 
val triplets: RDD[EdgeTriplet[VD, ED]] 
// 图 缓存 


def persist(newLevel: StorageLevel = StorageLevel.MEMORY ONLY): Graph[VD, ED] 
def cache(): Graph[VD, ED] 
def unpersistVertices (blocking: Boolean = true): Graph[VD, ED] 


// Change the partitioning heuristic 
def partitionBy(partitionStrategy: PartitionStrategy): Graph[VD, ED] 
// 转换 顶点 和 边 的 属性 


def mapVertices[VD2] (map: (VertexID, VD) => VD2) : Graph[VD2, ED] 
def mapEdges[ED2] (map: Edge[ED] => ED2): Graph[VD, ED2] 
def mapEdges[ED2] (map: (PartitionID, Iterator[Edge[ED]]) => Iterator[ED2]): 


ph[VD, ED2] 
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def mapTriplets[ED2] (map: EdgeTriplet[VD, ED] => ED2): Graph[VD, ED2] 
def mapTriplets[ED2] (map: (PartitionID, Iterator[EdgeTriplet[VD, ED]]) => 
Iterator[ED2]): Graph[VD, ED2] 


// 修改 图 结构 


def reverse: Graph[VD, ED] 
def subgraph( 
epred: EdgeTriplet[VD,ED] => Boolean = (x => true), 
vpred: (VertexID, VD) => Boolean = ((v, d) => true)): Graph[VD, ED] 
def mask[VD2, ED2] (other: Graph[VD2, ED2]): Graph[VD, ED] 
def groupEdges (merge: (ED, ED) => ED): Graph[VD, ED] 


// 图 的 Join 操 作 
def joinVertices[U] (table: RDD[(VertexID, U)]) (mapFunc: (VertexID, VD, U) => 
VD): Graph[VD, ED] 

def outerJoinVertices[U, VD2](other: RDD[(VertexID, U)]) 
(mapFunc: (VertexID, VD, Option[U]) => VD2): Graph[VD2, ED] 
// 收集 信息 


def collectNeighborIds (edgeDirection: EdgeDirection): VertexRDD[Array[VertexID]] 
def collectNeighbors (edgeDirection: EdgeDirection): VertexRDD[Array[ (VertexID, VD)]] 
def mapReduceTriplets[A: ClassTag]( 


mapFunc: EdgeTriplet[VD, ED] => Iterator[(VertexID, A)], 
reduceFunc: (A, A) => A, 
activeSetOpt: Option[(VertexRDD[ ], EdgeDirection)] = None) 
: VertexRDD [A] E 

// Iterative graph-parallel computation 

def pregel[A] (initialMsg: A, maxIterations: Int, activeDirection: EdgeDirection)( 
vprog: (VertexID, VD, A) => VD, 
sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexID,A)], 
mergeMsg: (A, A) => A): Graph[VD, ED] 

// 基本 图 算法 


def pageRank(tol: Double, resetProb: Double = 0.15): Graph[Double, Double] 
def connectedComponents (): Graph[VertexID, ED] 

def triangleCount(): Graph[Int, ED] 

def stronglyConnectedComponents (numIter: Int): Graph[VertexID, ED] 


1. 构 造 图 
构造 图 一 般 有 两 种 方式 ， 通 过 Graph object 构造 和 通过 Graph Builder 构 造 。 


最 常用 的 方法 是 使 用 Graph object 构 造 Graph， 如 图 9-3 所 示 ， 左 边 是 属性 图 ， 也 就 是 我 们 要 生成 的 图 ， 右 边 第 一 个 是 这 个 属性 图 的 顶点 信息 ， 第 二 个 是 这 个 属性 图 的 边 信息 。 


// Assume the SparkContext has already been constructed 
val sc: SparkContext 
// 创建 顶点 RDD 
val users: RDD[(VertexId, (String, String))] - 
sc.parallelize (Array ( (3L, ("rxin", "student")), 
(7L, ("jgonzal", "postdoc")), 
(5L, ("franklin", "prof")), 
(2L, ("istoica", "prof")))) 


// 创建 边 RDD 
val relationships: RDD[Edge[String]] = 

Ssc.parallelize (Array (Edge (3L, 7L, "collab"), 

Edge(5L, 3L, "advisor"), 

Edge (2L, 5L, "colleague"), 

Edge(5L, 7L, "pi"))) 


// 定义 默认 顶点 的 信息 
val defaultUser = ("John Doe", "Missing") 

// 初始 化 图 

val graph = Graph(users, relationships, defaultUser) 


(如 原来 的 HDFS 块 ) 。 


Property Graph 


jgonzal, 
pst.doc. 


Vertex lable 


franklin, 


图 9-3 ”属性 图 、 对 应 顶点 和 边 信息 


首先 ， 通 过 SparkContext 的 方法 parallelize 创 建 图 的 顶点 RDD users 和 边 RDD relationships， 以 及 默认 的 顶点 defaultUser， 然 后 通过 Graph 的 构造 方法 创建 相应 的 图 对 象 graph。 


其 次 ，GraphX 提 供 多 种 从 RDD 或 者 硬盘 中 的 节点 和 边 中 构建 图 。 默 认 情 况 下 ， 图 的 构造 方法 不 会 重新 划分 图 的 边 ，Graph Builder 这 种 构造 方法 会 重新 划分 图 的 边 。 相 反 ， 边 会 留 在 它们 的 默认 分 区 
Graph.groupEdges 需 要 的 图 形 进行 重新 分 区 ， 因 为 它 假设 相同 的 边 将 被 放 在 同一 个 分 区 同一 位 置 ， 所 以 必须 在 调用 Graph.partitionBy 之 前 调用 groupEdges。 
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GraphLoaderedgeListFile 提 供 了 一 种 从 磁盘 上 边 的 列表 载 入 图 的 方式 。 在 此 解析 了 一 个 以 下 形式 的 邻接 列表 ( 源 项 点 ID， 目 的 地 顶点 1D) X: 


# 
21 
4 ] 
1 
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This is a comment 


从 指定 的 边 创 建 了 一 个 图 表 ， 自 动 遍 历 提 到 的 任何 顶点。 所 有 项 点 和 边 的 属性 默认 为 1。canonicalOrientation 参 数 允 许 重 新 定向 边 的 正方 向 (srcld«dstld) ， 这 是 必需 的 connected componenti 
该 minEdgePartitions 参 数 指定 边 分 区 生成 的 最 小 数目 ; 例如 ，HDFS 文 件 具 有 多 个 块 ， 那 么 就 有 多 个 边 的 分 割 ， 示 例如 下 : 


# 
5 3 
3 7 
2 7 
2 5 


FromNodelId ToNodeId 


通过 加 载 HDFS 文 件 构造 图 : 


package com.if 


import org.apache.spark. 
import org.apache.spark.graphx. 
import org.apache.spark.rdd.RDD 


object BuilderGraph { 


lytek.graph.builder 


def main(args: Array[String]): 


生成 随机 图 : 


(API 1.0.1) 


val 


// 


val 
val 


conf = new SparkConf 


x .xx LTOTTH) 


SC = new SparkContext (conf) 
graph = GraphLoader.edgeLlistFile (sc,"/user/datasource/builer | 


Unit = { 
().setAppName ("Make RDD").setMaster ("spark: 


graph.txt") 
graph.vertices.take (10) 


GraphGenerators.logNormalGraph(sc, numVertices = 100).mapVertices( (id, ) => id.toDouble ) 


(API 1.1.0) 


// 初始 化 一 个 随机 图 ， 节 点 的 度 符合 对 数 正 态 分 布 , 边 属性 初始 化 为 1 


val graph: Graph[Double, 


Int] -GraphGenerators.logNormalGraph (sc, 100, 100).mapVertices((id, ) => id.toDouble) 


2. 属 性 操作 
Graph 的 基本 成 员 ， 我 们 经 常 使 用 的 是 vertices、edges 和 triplets。 


class Graph[VD, ED] { 
// 图 的 属性 
val numEdges: Long 
val numVertices: Long 
val inDegrees: VertexRDD[Int] 
val outDegrees: VertexRDD [Int] 
val degrees: VertexRDD [Int] 
// 图 集合 的 视图 
val vertices: VertexRDD[VD] 
val edges: EdgeRDD[ED, VD] 
val triplets: RDD[EdgeTriplet[VD, ED]] 


3. 转 换 操 作 
和 RDD 的 Map 操 作 类 似 ， 属 性 图 包含 以 下 转换 操作 : 


class Graph[VD, ED] | 

def mapVertices[VD2] (map: (VertexId, VD) => VD2): Graph[VD2, ED] 
def mapEdges[ED2] (map: Edge[ED] => ED2): Graph[VD, ED2] 
def mapTriplets[ED2] (map: EdgeTriplet[VD, ED] => ED2): Graph[VD, ED2] 


) 


每 个 运算 产生 一 个 新 的 图 ， 这 个 图 的 顶点 和 边 属性 通过 map 方 法 修改 。 


在 所 有 情况 下 图 的 结构 不 爱 影 响 ， 这 是 这 些 运算 符 的 关键 所 在 ， 它 允许 新 图 可 以 复 用 初始 图 的 结构 索引 。 


val newVertices = graph.vertices.map { case (id, attr) => (id, mapUdf(id, attr)) ) 
val newGraph = Graph (newVertices, graph.edges) 


相反 ,使 用 mapVertices 保 存 索 引 : 


val newGraph = graph.mapVertices((id, attr) => mapUdf(id, attr)) 


这 些 操作 经 常用 来 初始 化 图 的 特定 计算 ， 或 者 去 除 不 必要 的 属性 。 例 如 ， 给 定 一 个 将 out degree 作 为 项 点 的 属性 图 ， 初 始 化 并 作为 PageRank: 


val inputGraph: Graph[Int, String] - 
graph.outerJoinVertices (graph.outDegrees) ( (vid, _, degOpt) => degOpt.getOrElse(0)) 
// 建立 一 个 图 表 , 每 个 边 都 包含 了 最 初 PageRank 的 参数 和 顶点 
val outputGraph: Graph[Double, Double] = 
inputGraph.mapTriplets (triplet => 1.0 / triplet.srcAttr).mapVertices((id, ) => 1.0) 


4 结构 操作 


当前 GraphX 只 支持 一 组 简单 的 常用 结构 化 操作 ， 我 们 希望 将 来 增加 更 多 的 操作 。 以 下 是 基本 的 结构 运算 符 的 列表 。 


class Graph[VD, ED] { 
def reverse: Graph[VD, ED] 
def subgraph(epred: EdgeTriplet[VD,ED] => Boolean, 
vpred: (VertexId, VD) => Boolean): Graph[VD, ED] 
mask[VD2, ED2] (other: Graph[VD2, ED2]): Graph[VD, ED] 
groupEdges (merge: (ED, ED) => ED): Graph[VD,ED] 


h Fh 


该 reverse 操 作 符 返回 一 个 新 图 ， 新 图 的 边 的 方向 都 反 转 了 ， 这 是 非常 实用 的 。 例 如 ， 想 要 计算 逆向 PageRank， 因 为 反 向 操作 不 修改 项 点 或 边 属性 或 改变 边 的 数目 ， 它 的 实现 不 需要 数据 移动 或 复制 |。 


该 子 图 subgraph 将 顶点 和 边 的 预测 作为 参数 ， 并 返回 一 个 图 ， 它 只 包含 满足 顶点 条 件 的 项 点 图 ( 值 为 true) ,以 及 满足 边 条 件 并 连接 顶点 的 边 。subgraph 子 运算 符 可 应 用 于 很 多 场景 ， 以 限制 图 表 的 
顶点 和 边 ， 或 消除 断 开 的 链接 。 例 如 ， 在 下 面 的 代码 中 ， 删 除 已 损坏 的 链接 : 


// 为 顶点 创建 RDD 
val users: RDD[(VertexId, (String, String))] = 
sc.parallelize(Array((3L, ("rxin", "student")), 


(7L, ("jgonzal", "postdoc")), 
(5L, ("franklin", "prof")), 

(2L, ("istoica", "p3rof")), 
(4L, ("peter", "student")))) 


// 为 边 创建 RDD 


val relationships: RDD[Edge[String]] = 
sc.parallelize (Array (Edge (3L, 7L, "collab"), 
Edge(5L, 3L, "advisor"), 
Edge (2L, 5L, "colleague"), Edge(5L, 7L, "pi"), 
Edge (4L, OL, "student"), Edge (5L, OL, "colleague"))) 


// 定义 一 个 默认 的 顶点 , 以 防 丢失 数据 
val defaultUser = ("John Doe", "Missing") 
// 初始 化 图 , Edge (4L, OL, "student"), | Edge(5L, OL, "colleague") 构建 图 时 已 经 删除 
val graph = Graph (users, relationships, defaultUser) 
// 请 注意 ,有 一 个 顶点 0 (我 们 没有 信息 ) 连接 到 该 顶点 
graph.triplets.map( 
triplet => triplet.srcAttr. 1 + " is the " + triplet.attr + " of " + triplet.dstAttr. 1 
).collect.foreach(println( )) 
// 删除 多 余 的 顶点 和 与 之 相连 的 边 
val validGraph = graph.subgraph(vpred = (id, attr) => attr. 2 !- "Missing") 
// 这 个 子 图 将 删除 顶点 4 和 5 与 顶点 0 相连 的 边 
validaGraph.vertices.collect.foreach(println( ) ) 
validGraph.triplets.map( 
triplet => triplet.srcAttr. 1 + " is the " + triplet.attr + " of 
).collect.foreach(println( )) 


" * triplet.dstAttr. 1 


我 们 举 一 个 例子 : 


// 即 去 挤 了 ID 为 3 的 顶点 
val validGraph2 = graph.subgraph(vpred = (id, attr) => attr. 2 != "student") 
validGraph2.vertices.collect.foreach(println( )) 
validGraph2.triplets.map( 


triplet => triplet.srcAttr. 1 + " is the " + triplet.attr + " of " + triplet. 
dstAttr. 1 
).collect.foreach(println( )) 


在 上 面 的 例子 中 ， 仪 提供 了 顶点 条 件 。 如 果 不 提供 项 点 或 边 的 条 件 ， 在 subgraph 操 作 中 默认 为 真 。mask 操 作 返 回 一 个 包含 输入 图 中 所 有 顶点 和 边 的 图 。 这 可 以 用 来 和 subgraph 一 起 使 用 ， 以 限制 基于 
属性 的 另 一 个 相关 图 。 例 如 ， 我 们 用 去 掉 顶 点 的 图 运行 联通 分 量 ， 并 且 限 制 输出 为 合法 的 子 图 。 


// 运行 关联 组 件 

// 计算 每 个 顶点 的 连接 组 件 成 员 并 返回 一 个 图 的 顶点 值 

val ccGraph = graph.connectedComponents () 

// 删除 丢失 的 顶点 和 边 

val validGraph = graph.subgraph(vpred = (id, attr) => attr. 2 !- "Missing") 
// 重新 构造 子 图 

val validCCGraph = ccGraph.mask (validGraph) 


该 groupEdges 操 作 合并 多 重 图 中 的 平行 边 〈 即 重复 顶点 对 之 间 的 边 ) 。 在 许多 数值 计算 的 应 用 中 ， 平 行 边 可 以 加 入 为 单条 边 ， 从 而 降低 了 图 形 的 大 小 。 


5. 天 联 操 作 


在 许多 情况 下 ， 有 必要 从 外 部 集合 (RDDS) 中 加 入 图 形 数据 。 例 如 ， 我 们 可 能 有 额外 的 用 户 属性 ， 想 要 与 现 有 的 图 形 合并 ， 或 者 可 能 需要 从 一 个 图 选取 一 些 顶点 属性 到 另 一 个 图 。 这 些 任务 都 可 以 使 
用 join 操作 完成 。 下 面 列 出 了 关联 操作 方法 : 


class Graph[VD, ED] { 
def joinVertices[U] (table: RDD[(VertexlId, U)]) (map: (Vertexld, VD, U) => VD) 
: Graph[VD, ED] 
def outerJoinVertices[U, VD2] (table: RDD[(VertexlId, U)]) (map: (VertexlId, VD, 
Option[U]) => VD2) 

: Graph[VD2, ED] 


该 joinVertices 运 算 符 连 接 输 入 RDD 的 顶点 ， 并 返回 一 个 新 图 ， 新 图 的 顶点 属性 通过 用 户 自 定义 的 map 功 能 作用 在 被 连接 的 顶点 上 。 没 有 匹配 的 RDD 保 留 其 原始 值 。 


val graph = GraphLoader.edgeListFile (sc,"/user/zfwu/datasource/web-Google.txt") 
graph.vertices.take (10) 
val rawGraph = graph.mapVertices((id,attr) => 0) 

val outDegrees - rawGraph.outDegrees 

val tmp = rawGraph.joinVertices (outDegrees) ( ( , ,optDeg) => optDeg ) 
tmp.vertices.take (10) 


如 果 RDD 顶 点 包含 多 于 一 个 的 值 ， 其 中 只 有 一 个 将 会 被 使 用 。 因 此 ， 建 议 在 输入 RDD 初 始 为 唯一 时 ， 使 用 下 面 pre-index 所 得 到 的 值 以 加 快 后 续 join。 


val nonUniqueCosts: RDD[(VertexID, Double)] 
val uniqueCosts: VertexRDD[Double] = 
graph.vertices.aggregateUsingIndex (nonUnique, (a,b) => a + b) 
val joinedGraph = graph.joinVertices (uniqueCosts)( 

(id, oldCost, extraCost) => oldCost + extraCost) 


outerJoinVertices 操 作 类 似 oinVertices， 并 且 可 以 将 用 户 定 义 的 map 遂 数 应 用 到 所 有 的 项 点， 同时 改变 顶点 的 属性 类 型 。 因 为 不 是 所 有 的 顶点 都 可 以 匹配 输入 的 RDD 值 ， 所 以 map 遂 数 需要 对 类 型 进 
行 选择 。 例 如 ， 我 们 可 以 通过 用 outDegree 初 始 化 顶点 属性 来 设置 一 个 图 的 PageRank。 


val outDegrees: VertexRDD[Int] = graph.outDegrees 
val degreeGraph = graph.outerJoinVertices (outDegrees) { (id, oldAttr, outDegOpt) => 
outDegOpt match { 
case Some (outDeg) => outDeg 
case None => 0 // No outDegree means zero outDegree 
) 
} 


在 上 面 的 例子 中 采用 了 多 个 参数 列表 的 curried 函 数 模式 (IO, f (a) (b) ) 。 虽 然 我 们 可 以 同样 号 f (a) (b) 为 f (a, b) ， 这 将 意味 着 该 类 型 推断 b 不 依赖 于 a。 其 结果 是 ， 用 户 将 需要 提供 类 型 
标注 给 用 户 自 定 义 的 函数 : 


val joinedGraph = graph.joinVertices (uniqueCosts, 
(id: VertexID, oldCost: Double, extraCost: Double) => oldCost + extraCost) 


6. 聚 合 操作 
GraphX 中 核心 的 聚合 操作 是 mapReduceTriplets 操 作 : 


class Graph[VD, ED] { 

def mapReduceTriplets [A] ( 
map: EdgeTriplet[VD, ED] => Iterator[(VertexlId, A)], 
reduce: (A, A) => A): VertexRDD[A] 


该 mapReduceTriplets 运 算 符 将 用 户 定义 的 map 函 数 作为 输入 ， 并 且 将 map 作 用 到 每 个 triplet， 并 可 以 得 到 triplet 上 所 有 顶点 的 信息 。 为 了 便于 优化 预 聚合 ， 支 持 发 往 triplet 的 源 或 目标 顶点 信息 。 用 
户 定义 的 reduce 功 能 将 合并 所 有 目标 顶点 相同 的 信息 。 该 mapReduceTriplets 操 作 返 回 VertexRDDIA]， 包 含 所 有 以 顶点 作为 目标 节点 的 集合 消息 (类 型 A) 。 没 有 收 到 消息 的 顶点 不 包含 在 返回 
VertexRDD 中 。 


需要 注意 的 是 ，mapReduceTriplets 需 要 一 个 附加 的 ActiveSet， 限 制 了 VertexRDD 地 图 提供 的 邻接 边 map 阶 段 : 


activeSetOpt: Option[(VertexRDD[ ], EdgeDirection)] = None 


izEdgeDirectionfgxE f BEER ESTESBRJuJENEfEmapBWiEz,. WRZE, RIFBP3xE X BgmapeSZi S QT ERBBRaBJActiveSetrh, $2n575Iz&out, WifizmapERZirfe E FHCEJRTIESB 
ActiveSetrh, $n5g75IEeither, WmapBgZir&EFHTEJRTRESSE EE RaHJActiveSetrh, $[5R7S[SEÉboth, Umap št ERSCEdRSIRRSTUBEAIRBJActiveSetrh, Active Set% k BEIRA. 


在 下 面 的 例子 中 我 们 使 用 mapReduceTriplets 算 子 来 计算 平均 年 龄 。 


// 导入 随机 图 生成 库 

import org.apache.spark.graphx.util.GraphGenerators 

// 创建 一 个 图 Vertex 属 性 age 

val graph: Graph[Double, Int] = 
GraphGenerators.logNormalGraph (sc, 100, 100) 


.mapVertices((id, ) => id.toDouble) 
// 计算 older followers 的 人 数 和 他 们 的 总 年 龄 
val olderFollowers: VertexRDD[(Int, Double)] = graph.mapReduceTriplets[(Int, Double)]( 
triplet => ( // Map Function 
if (triplet.srcAttr > triplet.dstAttr) { 
// 发 送信 息 到 目标 Vertex 
Iterator( (triplet.dstId, (1, triplet.srcAttr))) 


) else ( 
// 不 发 送信 息 
Iterator.empty 
} 


), 
// 增加 计数 和 年 龄 
(a, b) => (a. 1 + b. 1, a. 2 * b. 2) // Reduce Function 


) 

// 获取 平均 年 龄 

val avgAgeOfOlderFollowers: VertexRDD[Double] - 
olderFollowers.mapValues( (id, value) => value match ( case (count, totalAge) 
=> totalAge / count } ) 

// 显示 结果 


avgAgeOfOlderFollowers.collect.foreach(println( ) ) 


当 消 息 是 固定 长 度 时 ，mapReduceTriplets 操 作 执 行 。 


7. 缓 存 操作 


class Graph[VD, ED] { 

def persist(newLevel: StorageLevel = StorageLevel.MEMORY ONLY): Graph[VD, ED] 
def cache(): Graph[VD, ED] 
def unpersistVertices (blocking: Boolean = true): Graph[VD, ED] 


} 


在 Spark 中 ，RDD 默 认 并 不 保存 在 内 人 存 中 。 为 了 避免 重复 计算 ， 当 需要 多 次 使 用 时 ， 建 议 使 用 缓存 。 在 GraphX 中 Graphs 行 为 方式 相同 。 当 需要 多 次 使 用 图 形 时 ， 一 定 要 首先 调用 Graph.cache () 。 

在 迭代 计算 中 ， 为 了 获得 最 佳 的 性 能 ， 也 可 能 需要 清空 缓存 。 在 默认 情况 下 ， 缓 存 的 RDD 和 图 表 将 保留 在 内 存 中 ， 直 到 按照 LRU 顺 序 被 删除 。 对 于 迭代 计算 ， 之 前 和 返 代 的 中 间 结 果 将 填补 缓存 。 虽 然 缓 
存 最 终 将 被 删除 ， 但 是 内 存 中 不 必要 的 数据 还 是 会 使 垃圾 回收 机 制 变 慢 。 有 效 策略 是 ， 一 旦 缓存 不 再 需要 ， 应 用 程序 立即 清空 中 间 结 果 的 缓存 ， 还 可 以 通过 持久 化 图 形 ， 这 样 在 下 次 迭代 中 可 以 有 接 使 用 。 
9.3.2 ”常用 图 算法 

常用 的 图 计算 算法 包括 PageRank、 三 角形 计数 、 连 接 分 量 算法 、 最 短路 径 算法 等 。 
1.PageRank 算 法 


PageRank 是 一 种 根据 网 页 之 间 相 互 超 链 接 计算 的 技术 ，Google 用 它 来 体现 网 页 的 相关 性 和 重要 性 ， 在 搜索 引擎 优化 操作 中 是 经 常 被 用 来 评估 网 页 优化 的 成 效 因素 之 一 。Google 的 创始 人 拉 里 : 佩 奇 和 
谢 尔 盖 布 林 于 1998 年 在 斯 坦 福 大 学 发 明了 这 项 技术 。 


PageRank 通 过 网 络 浩瀚 的 超 链接 关系 来 确定 一 个 页 面 的 等 级 。Google 把 从 A 页 面 到 B 页 面 的 链接 解释 为 A 页 面 给 B 页 面 投 票 ，Google 根 据 投票 来 源 (甚至 来 源 的 来 源 ， 即 链接 到 A 页 面 的 页 面 ) 和 投票 
目标 的 等 级 来 决定 新 的 等 级 。 简 单 地 说 ， 一 个 高 等 级 的 页 面 可 以 使 其 他 低 等 级 页 面 的 等 级 提升 。 


PageRank 简 单 计算 : 
假设 一 个 只 有 由 4 个 页 面 组 成 的 集合 : A、B、C 和 D。 如 果 所 有 页 面 都 链 向 A， 那 么 A 的 PR (PageRank) 值 将 是 B、C 及 D 的 和 |。 


PR (A) =PR (B) +PR (C) +PR (D) 
续 假设 B 也 有 链接 到 C， 并 且 D 也 有 链接 到 包括 A 的 3 个 页 面 。 一 个 页 面 不 能 投票 2 次 ， 所 以 B 给 每 个 页 面 半 票 。 以 同样 的 逻辑 ，D 投 出 的 票 只 有 三 分 之 一 算 到 了 A 的 PageRank 上 。 


PR(B) " PR(C) " PR( D) 


PR( A) 7 ] 3 


损 句 话说 ， 根 据 链 出 总 数 平分 一 个 页 面 的 PR 值 。 


PR(B) " PR(C) " PR(D) 


MR L(B) | L(C)  L(D) 


GraphXElTsffjPageRankBSSSeS Ua SCHO, MükPageRanlogZere,. &$éfJPageRankiaí;IBREZXEBRUE(N, muueügPageRankisí;, BFH (BAENA EARRA, CESAR 
之 内 时 停止 迭代 ) 。 


在 社交 网 络 数据 集中 可 以 使 用 Page Rank 算 法 计算 每 个 用 户 的 网 页 级 别 。 例 如 ， 一 组 用 户 graphx/data/users.txt， 以 及 用 户 之 间 的 关系 graphx/data/followers.txt。 计 算 过 程 如 下 : 


// 加 载 图 的 边 

val graph = GraphLoader.edgeListFile(sc, "graphx/data/followers.txt") 
// 运行 PageRank 

val ranks = graph.pageRank(0.0001).vertices 

// 使 用 用 户 名 join rank 

val users = sc.textFile("graphx/data/users.txt").map ( line => 

val fields = line.split(",") 

(fields(0).toLong, fields (1)) 


} 
val ranksByUsername = users.join(ranks).map { 
case (id, (username, rank)) -» (username, rank) 


} 
// 打印 结果 


println(ranksByUsername.collect ().mkString ("\n")) 


2. 三 角形 计数 算法 


GraphX 人 在 TriangleCount 对 象 中 实现 了 一 个 三 角形 计数 算法 ， 这 个 算法 计算 通过 各 项 点 的 三 角形 数目 ， 从 而 提供 集群 的 度 。TriangleCount 要 求 边 的 指向 (srcld<dstld) ， 并 使 用 Graph.partitionBy 


// 加 载 边 和 分 区 图 

val graph = GraphLoader.edgeLlistFile(sc, "graphx/data/followers.txt", true).partitionBy (PartitionStrategy.RandomVertexCut) 

// 找到 每 个 顶点 的 三 角形 数 

val triCounts = graph.triangleCount ().vertices 

// 加 入 用 户 名 的 三 角形 数 

val users = sc.textFile("graphx/data/users.txt").map { line => 
val fields = line.split(",") 

(fields(0).toLong, fields(1)) 


} 
val triCountByUsername = users.join(triCounts).map { case (id, (username, tc)) => (username, tc) 


} 


// 打印 结 
println(triCountByUsername.collect ().mkString ("\n")) 


3. 连 接 分 量 算法 


连接 分 量 算法 标 出 了 图 中 编号 最 低 的 顶点 所 连接 的 子 集 。 例 如 ， 在 社交 网 络 中 ， 连 接 分 量 类 似 集群 。GraphX 包 含 在 ConnectedComponents 对 象 的 算法 中 ， 并 且 从 该 社交 网 络 数据 集中 可 计算 出 连接 
组 件 的 PageRank 部 分 ， 代 码 如 下 : 


// 加 载 PageRank 示 例 的 图 
val graph = GraphLoader.edgeListFile(sc, "graphx/data/followers.txt") 
// 找到 连接 组 件 
val cc = graph.connectedComponents ().vertices 
// 加 入 用 户 名 的 连接 组 件 
val users = sc.textFile("graphx/data/users.txt").map { line => 
val fields = line.split(",") 
(fields(0).toLong, fields(1)) 


} 
val ccByUsername = users.join(cc).map { 
case (id, (username, cc)) => (username, cc) 


) 
// 打印 结果 


println (ccByUsername.collect ().mkString ("\n")) 


Pregel 将 目标 图 类 问题 的 运算 模型 归结 为 在 图 的 拓扑 节点 (Vertex) 上 和 迭代 执行 的 算法 。 每 次 迭代 称 为 一 个 superstep， 在 Pregel 中 ， 数 据 模 型 的 主要 概念 包括 节点 、 边 Edge 和 消息 Message。 人 在 每 个 
superstep 步 骤 中 ， 各 个 节点 执行 相同 的 用 户 定义 函数 来 处 理 数据 ， 更 新 自身 的 状态 乃至 更 改 整个 图 的 拓扑 结构 (如 增 减 节点 、 边 等 ) 。 每 个 节点 的 边 则 用 来 链接 相关 的 目标 节点 ， 通 过 发 送 消 息 给 其 他 节点 
来 传递 数据 。 在 整个 处 理 流程 中 ， 数 据 接收 和 处 理 是 以 superstep 进 行 同步 的 ， 在 一 个 superstep 中 各 个 节点 所 发 送 的 消息 直到 下 一 个 superstep 才 会 被 目标 节点 接收 和 处 理 ， 并 会 触发 状态 变更 。 每 个 节点 
在 当前 superstep 中 处 理 完 数据 后 会 投票 决定 自身 是 否 停止 处 理 ， 如 果 没有 被 消息 再 次 触发 ， 在 以 后 的 superstep 中 就 不 会 调度 该 节点 进行 运算 。 当 所 有 节点 都 停止 后 ， 整 个 迭代 过 程 结 束 。 


{ 
var g = graph.mapVertices((vid, vdata) => vprog (vid, vdata, initialMsg)).cache() 
// 计算 出 消息 
var messages = g.mapReduceTriplets (sendMsg, mergeMsg) 
var activeMessages = messages.count() // 计算 顶点 的 个 数 
var prevG: Graph[VD, ED] = null 
var i = 0 
while (activeMessages > 0 && i < maxIterations) { 
// 接受 信息 
val newVerts = g.vertices.innerJoin (messages) (vprog).cache() 
// 使 用 接收 到 信息 的 顶点 来 更 新 图 
prevG = g 
g = g.outerJoinVertices (newVerts) { (vid, old, newOpt) => newOpt.getOrElse(old) ) 
g.cache () 
val oldMessages - messages 

// 发 送 新 的 信息 ， 顶 点 没有 得 到 消息 不 会 出 现在 newVerts 中 ， 所 以 不 要 发 送信 息 ， 我 们 必须 缓存 消息 ， 

// 它 可 以 在 下 一 行 实现 ,让 我 们 uncache 上 一 次 迭代 
messages = g.mapReduceTriplets (sendMsg, mergeMsg, Some((newVerts, activeDirection))).cache() 
activeMessages = messages.count () 
logInfo("Pregel finished iteration " + i) 
oldMessages.unpersist (blocking-false) 
newVerts.unpersist (blocking-false) 
prevG.unpersistVertices (blocking-false) 
prevG.edges.unpersist (blocking-false) 
i += 1 
} 
g 
} 


94 ”应 用 场景 
9.4.1 ”图谱 体 检 平 台 

基本 上 ， 所 有 的 关系 都 可 以 从 图 的 角度 来 看 待 和 处 理 ， 但 是 一 个 关系 的 价值 有 多 大 ? 健康 与 否 ? 适合 用 于 什么 场景 ? 很 多 时 候 是 靠 运营 和 产品 凭 感觉 来 判断 和 评估 。 如 何 将 各 种 图 的 指标 精细 化 、 规 范 
化 ， 对 于 产品 和 运营 的 构思 进行 数据 上 的 预 研 指导 ， 提 供 科 学 决策 的 依据 ， 是 图 谱 体检 平台 设计 的 初 囊 和 出 发 点 。 

基于 这 样 的 出 发 点 ， 借 助 GraphX 丰 富 的 接口 和 工具 包 ， 针 对 某 公 司 内 部 林林总总 的 图 业务 需求 ， 开 发 一 个 图 谱 体检 平台 。 主 要 进行 下 列 指标 的 检查 : 

(1) 度 分 布 


度 分 布 是 一 个 图 最 基础 的 指标 ， 也 是 非常 重要 的 一 个 指标 。 度 分 布 检测 的 目的 ， 主 要 是 了 解 图 中 “超级 节点 ”的 个 数 和 规模 ， 以 及 所 有 节点 度 的 分 布 曲线 。 借 助 GraphX 最 基本 的 图 信息 接口 : 
degrees: VertexRDDI[Int]， 包 括 inDegrees 和 outDegrees， 这 个 指标 可 以 轻松 地 计算 出 来 ， 并 进行 各 种 各 样 的 统计 。 


(2) 二 跳 邻 居 数 


对 于 大 部 分 社交 关系 来 说 ， 只 获得 一 跳 的 度 分 布 是 远 远 不 够 的 ， 另 一 个 重要 的 指标 是 二 跳 邻居 数 。 例 如 ， 在 秘密 App 中 ， 好友 的 好 友 的 秘密 ， 传 播 的 范围 更 广 ， 信 息 量 更 丰富 。 因 此 二 跳 邻居 数 的 统 
计 ， 是 图 谱 体检 中 很 重要 的 一 个 指标 。 对 于 二 跳 邻居 的 计算 ，GraphX 没 有 给 出 现成 的 接口 ， 需 要 自己 设计 和 开发 。 可 以 使 用 的 方法 是 : 


1) 第 一 次 遍历 ， 所 有 点 往 邻 居 点 传播 一 个 带 自身 lId， 生 命 值 为 2 的 消息 ; 
2) 第 二 次 遍历 ， 所 有 点 将 收 到 的 消息 ， 往 邻居 点 再 转发 一 次 ， 生 命 值 为 1; 
3) 最 终 统 计 所 有 点 上 接收 到 的 生命 值 为 1 的 Id， 并 进行 分 组 汇总 ， 得 到 所 有 点 的 二 跳 邻居 。 


值得 注意 的 是 ， 在 进行 计算 之 前 ， 需 要 借助 度 分 布 ， 将 图 中 的 超级 节点 去 掉 ， 不 纳入 二 跳 邻 居 数 的 计算 。 否 则 这 些 超级 节点 一 来 会 出 现在 第 一 轮 传 播 后 ， 收 到 过 多 的 消息 而 爆 掉 ， 二 来 它们 参与 计算 ， 
会 影响 和 它们 有 一 跳 邻居 关系 的 顶点 ， 导 致 它们 不 能 得 到 真正 有 效 的 二 跳 邻居 数 。 所 以 必须 先 筛选 掉 。 


(3) 连通 图 


爹 测 连 通 图 的 目的 ， 是 弄 清 一 个 图 有 几 个 连通 部 分 ， 以 及 每 个 连通 部 分 有 多 少 顶 点 。 这 样 可 以 将 一 个 大 图 分 割 为 多 个 小 图 ， 并 去 掉 零 碎 的 连通 部 分 ， 从 而 可 以 在 多 个 小 子 图 上 进行 更 加 精细 的 操作 。 目 
前 ，GraphX 提 供 了 ConnectedComponents 和 StronglyConnectedComponents 算 法 ， 使 用 它们 可 以 快速 计算 出 相应 的 连通 图 。 


连通 图 可 以 进一步 演化 变 成 社区 发 现 算法 ， 而 该 算法 优 劣 的 评判 标准 之 一 是 计算 模块 的 Q 值 。 


942 多 图 合并 工具 


在 图 谱 体检 平台 的 基础 上 ， 可 以 了 解 到 各 种 各 样 关系 的 特点 。 不 同 的 关系 ， 都 会 有 自己 的 强项 和 弱项 ， 如 有 些 关 系 图 谱 连 通 性 好 些 ， 而 有 些 关 系 图 谱 的 社交 性 好 些 ， 所 以 往往 需要 使 用 关系 A 来 丰富 关 
系 B。 为 此 ， 在 图 谱 体检 平台 之 上 ， 借 助 GraphX， 开 发 了 一 个 多 图 合并 工具 ， 如 图 9-4 所 示 ， 提 供 类 似 于 图 的 并 集 的 概念 ， 可 以 快速 地 对 指定 的 2 个 不 同 关 系 图 谱 进行 合并 ， 产 生 一 个 新 的 关系 图 谱 。 


| A d B 扩充 图 C 


图 9-4 图 合并 
以 用 基于 A 关 系 的 图 来 扩充 基于 B 关 系 的 图 ， 生 成 扩充 图 C 为 例 ， 融 合算 法 基本 思路 如 下 : 
1) 若 图 B 中 某 边 的 两 个 顶点 都 在 图 A 中 ， 则 将 该 边 加 入 图 C (如 BD 边 ) ; 
2) 若 图 B 中 某 边 的 一 个 顶点 在 图 A 中 ， 而 另外 一 个 顶点 不 在 ， 则 将 该 边 和 另 一 顶点 都 加 上 (如 CE 边 和 E 点 ) ; 
3) 若 图 A 中 某 边 的 两 个 顶点 都 不 在 图 B 中 ， 则 舍弃 这 条 边 和 顶点 (如 EF 边 ) 。 
使 用 GraphX 的 outerJoinVertices 等 图 运算 符 ， 可 以 很 简单 地 完成 上 述 操作 。 另 外 ， 在 考虑 图 合并 时 ， 也 可 以 考虑 给 不 同 图 的 边 加 上 不 同 的 权重 ,综合 考虑 点 之 间 不 同 关 系 的 重要 性 。 新 产生 的 图 ,会 


再 进行 一 轮 图 谱 体 检 ， 通 过 前 后 三 个 图 各 个 体检 指标 的 对 比 ， 可 对 业务 上 线 之 后 的 效果 有 个 预 估 和 判断 。 如 果 不 符合 期 望 ， 可 以 尝试 重新 选择 扩充 方案 。 


9.4.3 ”能 量 传播 模型 


加 权 网 络 上 的 能 量 传播 是 经 典 的 图 模型 之 一 ， 可 用 于 用 户 信誉 度 预测 。 模 型 的 思路 是 : 物 以 类 聚 ， 人 以 群 分 。 常 和 信誉 度 高 的 用 户 进行 交易 ， 信 誉 度 自然 较 高 ， 常 和 信誉 度 差 的 用 户 有 业务 来 往 ， 信 誉 
度 自 然 较 低 。 模 型 不 复杂 ， 但 以 淘宝 网 为 例 ， 淘 宝 全 网 有 上 亿 用 户 点 和 几 十 亿 关 系 边 ， 要 对 如 此 规模 的 巨型 图 进行 能 量 传播 ， 并 对 边 的 权重 进行 精细 的 调节 ， 这 对 图 计算 框架 的 性 能 和 功能 都 是 巨大 的 考 
验 。 借 助 GraphX， 我 们 在 这 两 点 之 间 取 得 了 平衡 成功 实现 了 该 模型 ， 如 图 9-5 所 示 。 


图 9-5 能量 传播 模型 流程 


先生 成 以 用 户 为 点 、 买 卖 天 系 为 边 的 属性 图 ， 对 选 出 的 种 子 用 户 ， 分 别 赋予 相同 的 初始 正 负 能 量 值 (TrustRank & BadRank) ， 然 后 进行 两 轮 随 机 游 走 ， 一 轮 好 种 子 传播 正 能 量 (tr) ， 一 轮 坏 种 子 传 
播 负 能 量 (br) ， 然 后 正 负 能 量 相 减 得 到 finalRank， 根 据 finalRank 判 断 用 户 的 好 坏 。 边 的 初始 传播 强度 是 0.85， 这 时 AUC 很 低 ， 需 要 再 给 每 条 边 带 上 一 个 由 多 个 特征 (交易 次 数 ， 金 额 ……) 组 成 的 组 合 权 
重 。 每 个 特征 ， 都 有 不 同 的 独立 权重 和 偏 移 量 。 通 过 使 用 partialDerivativeAUK 方 法 ， 在 训练 集 上 计算 AUC， 然 后 对 AUC 求 偏 导 ， 得 到 每 个 关系 维度 的 独立 权重 和 偏 移 量 ， 生 成 新 的 权重 调节 器 ， 对 图 9-5 中 
所 有 边 上 的 权重 更 新 ， 然 后 再 进行 新 一 轮 运 代 ， 这 样 一 直到 AUC 稳 定时 ， 终 止 计 算 。 


在 接近 全 量 的 数据 上 进行 3 轮 大 进 代 ， 每 轮 2+ 6 次 Pregel， 每 次 Pregel 大 约 30 次 小 迭代 后 ， 最 终 的 AUC 从 0.6 提 升 到 0.9， 达 到 了 不 错 的 用 户 预测 准确 率 。 


9.5 ”本章 小 结 


GraphX 凭 借 Spark 整 体 的 一 体 化 流水 线 处 理 、 社 区 热烈 的 活跃 度 以 及 快速 的 改进 速度 ， 具 有 强大 的 竞争 力 。GraphX 框 架 本 身 是 依托 Spark 平 台 为 我 们 构建 了 一 个 良好 的 图 计算 框架 ， 若 要 用 图 计算 解决 
实际 问题 ， 还 需要 将 项 目 中 实际 遇 到 的 诸多 问题 涉及 的 处 理 算法 进行 并 行 化 优化 。 例 如 ， 将 算法 变换 为 一 种 矩阵 运算 ， 那 么 利用 Spark GraphX 来 具体 实现 将 会 是 一 个 不 错 的 选择 。Spark GraphX 中 提供 的 
一 些 图 算法 是 理解 GraphX 编 程 的 最 佳 实践 ， 有 兴趣 的 可 读者 可 以 深入 研究 。 


第 10 章 SparkR (Ron Spark) 


三 十 辐 共 一 载 ， 当 其 无 ， 有 和 车 之 用 。 震 士 以 为 器 ， 当 其 无 ， 有 器 之 用 。 溺 户 及 以 为 室 ， 当 其 无 ， 有 室 之 用 。 故 有 之 以 为 利 ， 无 之 以 为 用 。 
一 一 《道德 经 》 第 十 一 章 


李白 说 ，“ 大 道 如 青天 ， 我 独 不 得 出 ”， 大 道 如 青天 一 样 显 而 易 见 。 车 轮 上 的 三 十 辐 条 汇集 到 一 个 载 中 ， 有 了 车 描 中 空 的 地 方 ， 才 有 车 的 作用 ; 揉 合 陶土 做 成 器 具 ， 有 了 器 也 中 空 的 地 方 ， 才 有 器 也 的 
作用 ; 开 章 门窗 建造 房屋 ， 有 了 门窗 四 壁 中 空 的 地 方 ， 才 有 房屋 的 作用 。 “有 ”给 人 便利 ，“ 无 发挥 了 它 的 作用 ，“ 有 ”和 “无 ”是 相 须 为 用 ， 相 辅 相 成 ， 这 就 是 A “无 之 道 。 


如 果 说 我 们 通过 多 年 的 学 习 积累 ， 明 白 了 很 多 概念 和 道理 ， 达 到 了 “有 ” 的 境界 ， 那 么 如 何 对 “有 ”进一步 挖掘 ， 达 到 “无 ”的 境界 ， 最 终 达 到 “有 ” “无 ”相生 ， 相 须 为 用 ， 这 是 我 们 的 追求 。 无 
疑 ， 大 数据 之 SparkR， 为 “有 ”挖掘 “无 ”提供 了 一 种 尝试 。 


随 着 Spark 版 本 的 更 新 ， 最 终 SparkR 将 会 和 Spark ML 共同 构建 出 Spark 在 机 器 学 习 领域 的 优势 地 位 。 本 章 从 SparkR 讲 起 ， 描 述 R 语 言 和 Spark 之 间 的 关系 ， 展 示 如 何 安装 及 运行 SparkR， 以 及 一 些 常用 
案例 ， 希 望 能 够 起 到 抛砖引玉 的 效果 。 


10.1 概述 


R 语 言 具 有 强大 的 统计 、 分 析 、 绘 图 的 语言 和 操作 环境 ，Spark 具 有 强大 的 内 存 计算 能 力 ，Spark 和 R 相 结合 ， 进 一 步 强 化 了 Spark 在 内 存 计 算 领域 的 地 位 。 本 部 分 介绍 了 SparkR 的 工作 原理 、R 语 言 、 
rJava， 以 及 RHadoop 的 相关 内 容 。 


10.1.1 SparkR 介 绍 


SparkR 是 AMPLab 发 布 的 一 个 R 开 发 包 ， 为 Spark 提 供 了 一 个 轻 量 级 的 前 端 。Spark 具 有 快速 (fast) 、 可 扩展 (scalable) 、 交 互 (interactive) 的 特点 ，R 具 有 统计 (statistics) 、 封 装 
(packages) 、 绘 图 (plots) 的 优势 ，R 和 Spark 的 有 效 结合 ， 解 决 了 R 语 言 中 无 法 级 联 扩展 的 难题 ， 也 极 大 地 丰富 了 Spark 在 机 器 学 习 方 面 能 够 使 用 的 Lib 库 。 


sparkR 具 有 如 下 特点 : 
DataFtrame 支 持 使 用 Catalyst 架 构 ， 且 Spatk RDD 提 供 了 丰富 的 API; 
' 使 用 R 可 以 调用 丰富 的 MLlib。 
10.1.2 ”SparkR 的 工作 原理 


SparkR 的 工作 原理 如 图 10-1 所 示 ， 首 先 加 载 R 方 法 包 和 rJava 包 ， 然 后 通过 SparkR 初 始 化 Spark Context, 


Local Worker 


Spark 


Fxecutor 


Spark TNI Spark 


: Worker 
Context 


Context 


bxecutor 


图 10-1 SparkR 的 工作 原理 
如 果 是 本 地 模式 ， 直 接 在 本 地 启动 Spark Executor 与 RScript 进 行 交互 执行 任务 。 
如 果 是 集群 模式 ， 则 任务 提交 给 资源 管理 器 进行 调度 ， 由 资源 管理 器 将 任务 分 配 到 Worker 节 点 上 进行 执行 。 
数据 流 执 行 过 程 中 ， 具 有 如 下 特点 : 


(1) 采用 RDD 作 为 分 布 式 Lists (集合 


SparkR 提 供 了 Spark 中 弹性 分 布 式 数据 集 (RDD) 的 API， 用 户 可 以 通过 R Shell 交 互 性 地 运行 job， 可 以 在 分 布 式 文件 系统 HDFS 上 读 写 文 件 (需要 将 文件 put 到 HDFS 上 ) ， 也 可 以 使 用 lapply (方法 调 


用 ) 方法 定义 对 应 每 个 RDD 元 素 的 运算 。 


SC<- sparkR.init ("local") 
lines«- textFile (sc,"hdfs:// README.md") 
words«-lapply (lines, function (line) (length (unlist (strsplit(line," ")))]) 


(2) 序列 化 闭 包 


SparkR 也 支持 常见 的 闭 包 (closure) 功能 ， 用 户 定 义 的 函数 中 所 引用 的 变量 会 自动 发 送 到 集群 中 所 有 需要 运算 的 服务 器 ， 如 采取 引用 weights 会 被 自动 发 送 到 运算 服务 器 。 代 码 如 下 : 


lines«- textFile(sc, "hdfs:// README.md") 
weights«- runif(n-D, min = -1, max = 1) 
createMatrix«- function (line) 
fas.numeric(unlist(strsplit(line, " "))) $*$ t(weights)) 
# weightsis automatically serialized 

matrixRDD«- lapply(lines, createMatrix) 


(3) 易于 使 用 R packages 


用 户 还 可 以 容易 地 在 已 经 安装 了 R 开 发 包 的 集群 上 使 用 SparkR，includePackage 命 令 用 于 指示 在 每 个 集群 中 执行 操作 前 读 取 开 发 包 。 


10.1.3 R 语 言 介绍 


R 是 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 ， 是 一 个 用 于 统计 计算 和 统计 制图 的 优秀 工具 ， 它 具有 自由 、 免 费 、 源 代码 开放 的 特点 。 用 户 通过 可 以 撰写 套件 增加 特殊 的 统计 技术 、 绘 图 功能 ， 


[mm] 


面 和 数据 输入 /输出 功能 。 作 为 数据 分 析 最 常用 的 工具 之 一 ，R 语 言 可 以 用 于 各 种 领域 的 统计 和 绘图 ， 如 生物 统计 学 、 信 息 学 、 自 然 科学 等 。 


R 语 言 是 一 种 面向 对 象 的 语言 ， 优 点 是 编码 简单 方便 、 速 度 快 ; 可 解决 许多 复杂 的 算法 问题 ， 在 Java 中 需要 多 行 代码 解决 的 问题 ，R 语 言 一 行 便 可 解决 ; 且 拥 有 一 整套 数据 和 和 矩 阵 操作 运算 符 。 


Ia PEE 


能 处 理 的 数据 不 能 大 于 一 台 机 器 的 内 存 。 


(1) R 的 对 象 


以 及 编程 界 


缺陷 是 R 


R 所 有 的 对 象 都 有 两 个 内 在 属性 : 元 素 类 型 和 长 度 。 


元 素 类 型 是 对 象 内 元 素 的 基本 类 型 ， 包 括 : 数值 (numeric) 、 字 符 型 (character) 、 复 数 型 (Complex) , 395883 (logical) 、 函 数 (function) 等 ， 通 过 mode () 函数 可 以 查看 对 象 的 类 型 ; 长 
度 是 对 象 中 元 素 的 数目 ， 通 过 length () 可 以 查看 对 象 的 长 度 。 


除了 元 素 类 型 之 外 ， 对 象 本 身 也 有 不 同 的 类 型 ， 表 示 不 同 的 数据 结构 (struct) ，R 中 的 对 象 类 型 主要 包括 : 

:向量 (vector) : 由 一 系列 有 序 元 素 构成 。 

: 因子 (factor) : 对 同 长 的 其 他 向 量 元 素 进行 分 类 (分 组 ) 的 向 量 对 象 。R 同 时 提供 有 序 (ordered). 和 无 序 (unordered) 因子 。 
- 数组 (array) : 带 有 多 个 下 标的 类 型 相同 的 元 素 集合 。 

- 矩阵 (matrix) : 短 阵 仅仅 是 一 个 带 有 双 下 标的 数组 ，R 提 供 了 一 个 函数 专门 处 理 二 维 数组 (AERE) 。 

: 数据 框 (dataframe) : 和 短 阵 类 似 的 一 种 结构 ， 在 数据 框 中 ， 列 可 以 是 不 同 的 对 象 。 

时间 序列 (time series) : 包含 一 些 额 外 的 属性 ， 如 频率 和 时 间 。 

| 列表 (list) : 是 一 种 泛 化 的 向 量 ， 不 要 求 所 有 元 素 是 同一 类 型 。 列 表 为 统计 计算 的 结果 返回 提供 了 一 种 便利 的 方式 。 

(2) RASE FHESEN 

R 语 言 编程 常用 遂 数 如 下 : 

: 基础 函数 : 包括 赋值 函数 c、 查 看 类 型 函数 mode、 求 平均 值 函 数 mean、 求 和 函数 sum、 求 最 大 值 函 数 max、 求 最 小 值 函 数 min、 求 方差 函数 vatft、 求 连 乘 叉 数 ptod、 求 标准 差 画 数 sd 等 ; 
| AERE: 包括 合成 纵 坐 标 竹 阵 函数 frbind、 合 成 横 坐 标 和 矩阵 函 数 cbind、 生 成 给 阵 函 数 matrix、 求 对 角 线 函数 diag 等 ; 


. 绘图 函数 : 包括 直方 图 函数 hist、 散 点 图 函数 plot、 柱 状 图 函数 barplot、 人 饼 图 函数 pie、 箱 形 图 函数 boxplot、 星 相 图 澡 数 stars、 散 点 图 函数 plot、 地 图 通 数 map 等 。 


10.1.4 ”Ri 语言 与 其 他 语言 的 通信 
1.rJava 


rJava 是 R 语 言 和 Java 语 言 的 通信 接口 ，rJava 包 已 经 成 为 很 多 人 使 用 R 调 用 Java 对 象 的 方法 ， 以 及 基于 Java 语 言 开发 R 包 的 基础 功能 组 件 。 


由 于 rJava 是 底层 接口 ， 并 使 用 JNI (Java Native Interface) 实现 了 R 直 接 调 用 Java 的 对 象 和 和 方法， 效率 非常 高 。 在 JRI 的 方案 中 ， 通 过 JRI (Java/R Interface) 实现 Java 调 用 R 的 功能 。JVM 直 接 通过 内 
存 加 载 RVM ， 调 用 过 程 性 能 几乎 无 损耗 ， 是 非常 高 效 的 连接 通道 ， 是 R 和 Java 通 信 的 首选 开发 包 。 


2.RHadoop 介 绍 


RHadoop 结 合 了 R 与 Hadoop 进 行 海量 数据 分 析 ，Hadoop 主 要 用 来 存储 海量 数据 ，R 语 言 通过 实现 MapReduce 算 法 来 蔡 代 Java 语 言 的 MapReduce 实 现 ， 同 时 管理 特定 算法 的 运行 并 控制 运行 的 数 
据 。 


虽然 RHadoop 可 以 让 广大 的 R 开 发 人 员 拥 有 更 强大 的 处 理 GB、TB、PB 大 数据 的 工具 ， 但 是 R 和 Hadoop 的 结合 性 能 低下 ， 用 户 体验 差 ， 虽然 解决 了 单机 性 能 问题 ， 但 是 效率 并 不 是 特别 高 。 


10.2 XcXXSparkR 


构建 SparkR 需 要 Scala 2.10 和 Spark 1.1.0 以 上 版 本 ， 安 装 SparkR 可 以 直接 下 载 安装 ， 也 可 以 进行 编译 安装 。 
大 致 步骤 如 下 : 
第 1 步 : 安装 R 语 言 ， 运 行 R Shell， 并 安装 Java ; 
第 2 步 : 编译 安装 SparkR。 
下 面 讲解 安装 SparkR 的 详细 步骤 。 
10.2.1 ”安装 R 语 言 与 rJava 
1) 从 官网 http://cran.r-project.org/ 选 择 合适 的 下 载 版 本 (R 支 持 Linux、 (Mac) OS X 和 Windows) 并 进行 解压 安装 。 
2) 以 在 Ubuntu 操作 系统 安装 R-3.1.2 为 例 ， 对 R-3.1.2.tar.gz 进 行 解压 ， 然 后 进入 R-3.1.2 目 录 。 
3) 执行 .configure 命 令 进行 编译 : ./configure--prefix=$R_HOME (默认 路 径 /usr/local/) 。 
4) 执行 make install 进 行 安装 ， 分 别 在 $R_HOME/lib 目 录 生 成 编译 程序 、$R_HOME/bin 目 录 生 成 执行 文件 、$R_HOME/share 目 录 生 成 手册 。 


5) 配置 环境 变量 。 


vi /etc/profile 
export R HOME=$R HOME 
export PATH-$PATH:S$R HOME/bin 


6) 执行 Source/etc/profile， 使 配置 生效 。 


7) 配置 R 的 Java 支 持 。 


R CMD javareconf 


8) 启动 R Shell， 并 通过 install.packages 命 令 安装 R 的 Java 包 。 


R 
R version 3.1.2 =. 
»install.packages ("rJava") 


通过 以 上 步 又，R 和 mava 安 装 完毕 。 


10.2.2 SparkR 的 安装 


构建 SparkR， 首 先 从 官网 下 载 SparkR， 下 载 地 址 : https://github.com/amplab-extras/SparkR-pkg. 


默认 的 Spark 版 本 是 1.1.0，Hadoop 版 本 是 1.0.4， 可 以 修改 pkg/src/build.sbt 配 置 构建 针对 不 同 Spark 版 本 的 SparkR， 需 要 如 下 配置 : 


val defaultHadoopVersion = "2.3.0-cdh5.0.0" 


val defaultSparkVersion = "1.2.0" 
然后 重新 执行 如 下 命令 : 
./install-dev.sh 相 当 于 : R CMD INSTALL --library=$LIB DIR pkg/] 


SparkR 默 认 使 用 SBT 来 编译 ， 如 果 你 希望 使 用 Maven 来 编译 ， 可 以 设置 环境 变量 USE MAVEN=1， 例 如 : 


USE MAVEN-1 ./install-dev.sh 


当然 ， 也 可 以 通过 设置 环境 变量 SPARK VERSION 和 SPARK HADOOP VERSION, ， 去 更 改 Spark 和 Hadoop 的 版 本 。 


如 果 想 要 更 改 Spark 1.2.0 版 本 ， 可 以 运行 : 


SPARK VERSION-1.2.0 ./install-dev.sh 


如 果 想 要 更 改 hadoop-2.3.0-cdh5.0.0， 可 以 运行 : 


SPARK HADOOP VERSION-2.3.0-cdh5.0.0 ./install-dev.sh 


当 出 现 *DONE (SparkR) ， 表 示 编 译 完成 。 
SparkR 支 持 在 YARN 集 群 上 以 yarn-client 模 式 运行 ， 运 行 前 提 是 Java、R、rJava、Yarn、Spark 已 经 安装 完毕 。 


下 面 的 代码 展示 了 如 何 构 建 YARN 模 式 支持 的 SparkR 并 运行 SparkR 程 序 。 


cd SparkR-pkg/ 
USE YARN-1 SPARK YARN VERSION-2.3.0-cdh5.0.0 SPARK HADOOP VERSION=2.3.0 
./install-dev.sh 


如 果 想 直接 使 用 github 上 的 包 ， 可 以 在 devtools 中 使 用 install_github。 可 以 指定 哪些 分 支 、 标 签 等 进行 安装 : 


library (devtools) 
install github("amplab-extras/SparkR-pkg", subdir-"pkg") 


10.3 SparkR 的 运行 与 应 用 示例 
经 过 前 面 的 安装 与 配置 ，SparkR 就 可 以 开始 使 用 ， 我 们 来 进行 深入 了 解 。 
10.3.1 运行 SparkR 


如 果 SparkR 已 经 构建 成 功 ， 可 以 通过 运行 SparkR Shell 命 令 启动 : 


./SparkR 

Welcome to SparkR! 

Spark context is available as sc 
» 


SparkR Shell 会 自动 实例 化 SparkContext， 创 建 一 个 Spark 本 地 模式 的 SparkContext 对 象 ， 并 运行 R 环 境 。 


当然 ， 也 可 以 指定 Spark 的 参数 来 创建 SparkContext， 并 运行 R 环 境 。 


* 指定 集群 的 master 创 建 SparkContext， 使 SparkR 运 行 在 集群 中 
MASTER-«Spark master URL» ./sparkR 

# 指定 Spark Mem 环 境 变量 ， 增 加 Driver 的 内 存 

SPARK MEM=1g ./sparkR 


如 果 是 使 用 github 安 装 SparkR， 加 载 SparkR 包 ， 然 后 初始 化 一 个 SparkContext。 例 如 ， 运 行 一 个 本 地 的 Master 来 启动 R， 当 然 也 可 以 运行 standlone 模 式 或 者 集群 模式 的 master， 代 码 如 下 : 


# 加 载 SparkR 语 言 包 

library (SparkR) 

# 初始 化 SparkR (本 地 模式 ) 

Sc«- sparkR.init (master-"local") 

# 初始 化 SparkR (独立 部 署 模式 ) 

SC<- sparkR.init (master-"spark:// «master»:7077" 


如 果 想 设置 Executor 的 内 存 ， 可 以 通 


* 指 


同时 ，SparkR 附 带 的 示例 程序 在 example 目 录 中 ， 使 用 ./sparkR<filename><args> 可 以 进 


X Spark Mem 环 境 变量 ， 


增加 Driver 的 内 存 
SparkEnvir-list (spark. executor.memory-"1g") 


./sparkR examples/pi.R local[2] 


[SparkR] 


Pi is roughly 3.13988 


在 YARN 模 式 下 ， 复 制 sparkr-assembly-0.1.jar 到 每 个 Worker 节 点 的 相应 位 置 。 


当局 动 应 用 程序 时 ， 环 境 变 量 YARN_CONF_DIR 需 要 设置 为 Hadoop 集 群 目录 。 


YARN CONF DI 


YARN CONF DI 


Loading required package: 
Initializing 


10.32. ”SparkR 示 例 程序 


本 小 节 通 过 wordcount 和 Pi 计算 进 


1. 单 词 计数 wordcount.R 


单词 计数 的 基本 思想 : 


具体 实现 步骤 : 


1) 加 载 SparkR 包 。 


library (SparkR) 


2) 初始 化 SparkContext， 如 果 想 将 SparkRi 


SC <- sparkR.init (master-"local", 


3) 加 载 文本 文件 ， 


lines «- 
words «- 


Lex 


tFile(sc, 


fla 
wordCount «- lappl 
counts «- reducel 


4) 输出 结果 


通过 textFile 函 数 读 取 文 本 数据 ， 由 strsplit 函 数 对 每 行文 本 进 
形式 的 数据 表 ， 然 后 通过 reduceByKey 合 并 相同 key 的 单词 计数 。 


Loading required package: methods 


rJava 


井 行 示 例 说 明 。 


进行 单词 计数 。 


"R 


EAD! 


Func 


E.md") 


cMap (1 


ines, 


tion (line) {s 
function (word) 


云 行 


运 但 


trspl 


R-/home/hadoop/hadoop-2.3.0-cdh5.0.0 MASTI 


ER-yarn-client ./sparkR 


"RWordaCount") 


it(line, 
(list (word, 


ud "m) [ 
1L) 


y (words, 
ByKey (woraCo 


output «- collect (counts) 


for (wordcoun 


(cat (wordcount[[1]], 


2. 求 Tt 值 Pi.R 


求 T 值 的 基本 思想 : 


sparkR 中 使 用 蒙特 卡 罗 方 法 ， 
率 的 方式 ， 随 机 往 正 方形 中 放 入 一 些 “ 点 


简单 理解 ， 假 设 正方 形 的 边 长 为 单位 1， 


根据 TV/4=MV/N*1， 


SC <- sparkR.init (master-"local", 


t in output) 


: ", wordcount[[2]], 


unt, "4", 2L) 


可 以 得 出 m=4*M/N。 


"Pi R" ) 


slices «- 2 

n «- 100000 * slices 

rands1 <- runif(n = length (el 
rands2 <- runif(n = length (el 


2) 建立 坐标 系 ， 假 设 单位 正方 形 的 顶点 在 原点 ， 落 入 第 一 象限 ， 即 正方 形 范围 在 (0，0) 到 (1, 
AR (Xx, y) 落 入 扇形 区 域 。 


val 


<- if 


else((rands1^2 + rands2^2) 


ems), min 
ems), min 


< 1, 


那么 面积 3=1， 


MN) } 


过 R 语 言 提供 的 随机 函数 runif， 模 拟 随机 投放 的 过 程 。 


-], max 


1.0, 0.0) 


sum (val) 


3) 根据 rn=4*M/N 计 算 Pi 的 值 。 


于 集群 环境 中 ， 则 


[ 


过 设置 spark.executor.momery 变 量 来 构造 SparkContext 实 例 。 


一 \ 一 /一 


R-/home/hadoop/hadoop-2.3.0-cdh5.0.0./sparkR examples/pi.R yarn-client 


345, HiflatMapEgZirfe 


行 运行 ， 例 如 : 


1 只 需要 将 master=local 修 改 成 Spark 集 群 的 监听 地 址 。 


INTO 


1]1}) 
) 


随机 投入 N 个 点 ， 其 


通过 概率 计算 nt 值 。 对 于 一 个 单位 为 1 的 正方 形 ， 以 其 某 一 个 顶点 为 圆心 ， 
， 根 据 这 些 点 落 入 扇形 区 域 的 概率 ( 落 入 扇形 区 域 点 


数 / 总 点 数 ) ， 


落 入 扇形 区 域 ， 那 么 可 认为 扇形 区 域 面积 为 M/N*1 ， 


边 为 半径 在 正方 形 内 画 扇形 (一 个 1/4 圆 形 的 扇形 ) ， 


可 以 得 到 扇形 的 面积 。 


1) 的 坐标 内 ， 同 时 假设 扇形 的 圆心 也 为 原点 ， 随 机 投放 点 的 坐标 为 (X，y) 


分 词 后 的 结果 以 列表 形式 返回 ， 使 用 R 的 lapply 将 列表 形式 的 分 词 


结果 转化 为 单词 ， 计 数 ] 


那么 扇形 的 面积 就 是 r/4。 因 此 ， 利 用 概 


当 N 足 够 大 时 ， 我 们 认为 扇形 区 域 面积 计算 是 精准 的 。 


， 如 果 x*x+y*y<1， 那 


rdd «- parallelize(sc, 1:n, slices) 
count «- reduce(lapplyPartition(rdd, piFuncVec), sum) 
cat("Pi is roughly", 4.0 * count / n, "Mn") 


3. 在 Spark 上 运行 SQL 查询 


一 个 Spark DataFrame 可 以 被 转化 为 一 个 临时 表 ， 从 而 让 它 可 以 支持 SQL 语句 查询 ， 最 终 返 回 结果 。 


# 加 载 Json 文 件 

people <- read.df(sqlContext, "./examples/src/main/resources/people.json", "json") 
# 将 文件 内 容 以 表格 的 形式 转化 为 DataFrame 

registerTempTable (people, "people") 

# 使 用 SQL 语 句 查 询 
teenagers <- sql(sqlContext, "SELECT name FROM people WHERE age >= 13 AND age «- 19") 
head (teenagers) 


10.3.3 R 的 DataFrame 操 作 方 法 


在 使 用 R 做 数据 挖掘 时 ， 最 常用 的 数据 结构 莫 过 于 DataFrame， 下 面 列 出 几 种 常见 的 DataFrame 操 作 方 法 。 


1. 查 看 数据 
查看 数据 可 采用 以 下 命令 : 
1) head (dataframe) # 查 看 数据 前 6 行 ; 
2) head (dataframe，n=20) # 查 看 DataFrame 前 指定 行 数 的 内 容 ， 如 这 里 是 20 行 ; 
3) tail (dataframe) # 查 看 数据 后 6 行 ; 


4) tail (dataframe，n=20) # 查 看 DataFrame 后 指定 行 数 的 内 容 ， 如 这 里 是 20 行 。 


2. 合 并 数据 
(1) data.frame (x, y) 
x，y 是 DataFrame 或 者 一 列 数据 ，x 和 y 的 行 数 一 样 ， 该 操作 得 到 一 个 新 的 DataFrame， 该 DataFrame 是 由 x 和 y 拼 合 而 成 ， 行 数 与 x、y 的 行 数 相同 ， 列 数 为 x 和 y 的 列 数 和 。 例 如 : 


x<-c (1:10) 

y<-x^2 
newdata<-data.frame (x,y) 
head (newdata) 


VVVV 


16 

25 

36 

z<-c (2:11) 

newdata<-data.frame (newdata, z) 
head (newdata) 

Xy ZzZ 


OYO014» Co Oo F- 
Ko) 


VVvVVvVoOcid0hNr»^A 


Oy OI 4 CO a P 
OYO01 4 Co Pho P 
ot 

Ox 
-]1oOY0145 CO h2 


(2) cbind (x, y) 
等 同 于 data.frame (x, y) . 
(3) rbind (x, y) 


Xx，y 均 为 data.frame， 要 求 xX 和 y 的 列 向 量 个 数 一 致 ， 该 操作 得 到 一 个 新 的 DataFrame， 该 DataFrame 是 由 x 和 y 的 数据 拼接 而 成 ， 行 数 等 于 x 和 y 的 行 数 之 和 ， 列 数 等 于 x/y 的 列 数 ， 例 如 : 


V 


t«-c(0,0,0) 
newdata<-rbind (newdata, t) 
newdata 


V 


V 


oO oo -1 OY O1: C0. IN. ES 
,9 00 101 0 iS CONSO IE X 
N 
CO 
O 


(1) subset 


该 操作 可 从 一 个 DataFrame 中 筛选 出 符合 条 件 的 数据 。 


| 


11000 
10 10 100 1 


newdatax yz1112224333944416555256066367774988806049 9981 10 10 10 100 1 
newdata.subset«-subset(newdata, z>5) > newdata.subset x yz 5 5 25 6 6 6 36 7 7 7 49888 64 99 9 981 ] 
t (newdata, z>6&x>8) x y z 9 9 81 10 10 10 100 11 

subset (newdata, z»6|x!-0) 


e 


VVNMVNM 
Qo 
per 
[oy 
Q 
0 


OYO01 Co PO Fr 
OYyO01 Co Phor 


7 7 49 8 
88649 
9 9 81 10 
10 10 100 11 


(2) transform 
该 操作 对 一 个 DataFrame 做 一 些 变 换 。 例 如 ， 这 里 为 矩阵 每 行 添加 两 列 数据 ， 一 列 为 X 取 反 后 的 值 ， 一 列 为 y 取 对 数 后 的 值 。 


.tran 


V 
3 
(O 
z 
Q, 
o 
E 
& 


xyz 


«Oo 00 10 C1 4S CO PO ES 
«O00 10 C1, CO PO ES 
N 
UI 


10 10 100 11 


> newdata.tran«-transform(newdata, newx--x, newy-log(y)) 
> newdata.tran x y z newx newy 


1 2 -1 0.000000 
2 2 4 3 -2 1.386294 
33 9 4 —3 2.197225 
4 4 16 5 -4 2.772589 
3952556 -5 3.218876 
6 6 36 7 -6 3.583519 
7 7 49 8 -7 3.891820 
8 8 64 9 -8 4.158883 
9 9 81 10 -9 4.394449 


10 10 100 11 -10 4.605170 
11000 0 -Inf 


4. 去 除 重复 数据 


去 除 拥 有 相同 数据 的 行 。 


> x«-c(1,0,1,0); 
> y<-c (0,0, r0) 
> test<-data.frame (x,y) 
> test 
x y 


licated (test) 
1] FALSE FALSE FALSE TRUE 
test1<-test [which (!duplicated(test)),] > test1 


5. 两 种 数据 按照 指定 key 聚 合 


merge 操 作 可 使 两 种 数据 按照 指定 的 key 聚 合 。 首 先 创建 两 个 DataFrame。 


V 


z 是 一 个 dataframe 


# 
Y 
5 
9 
4 
# 


VODP 
OFFO5EOWNIPXN 
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wit —^-dataframe 
1 w2 
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0 
0 


Co NO e 
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现在 想 将 w 的 第 二 列 按照 z 的 第 二 列 和 w 的 第 一 列 的 对 应 关系 合并 到 z 中 ， 即 变 成 : 


C) N IS X 
LN ESQ 


w, by.x-'y', by.y-'wl', sort-F) 


D 
OL 
CO No PS X (D IS i001 z 


Co NO 二 


6 .数据 聚合 
(1) melt 
melt 是 指 拆 分 数据 。reshape/reshape2 的 melt 国 数 是 个 3 通用 函数 ， 它 会 根据 数据 类 型 (数据 框 、 数 组 或 列表 ) 选择 melt.data.frame，melt.array 或 melt.list 函 数 进行 实际 操作 。 


如 果 是 数组 (array) 类 型 ，melt 的 用 法 就 很 简单 ， 它 依次 对 各 维度 的 名 称 进 行 组 合 将 数据 进行 线性 /向 量化 。 如 果 数 组 有 n 维 ， 那 么 得 到 的 结果 共有 n+1 列 ， 前 n 列 记录 数组 的 位 置信 息 ， 最 后 一 列 才 是 
观测 值 : 


> datax «- array(1:8, dim=c (2,2,2)) 
> melt (datax) 
Varl Var2 Var3 Value 


; 

2 2 2 

3 ] 2 3 

4 2 2 1 4 

5 1 1 2 5 

6 2 1 2 6 

7 1 2 2 7 

8 2 2 2 8 

> melt(datax, varnames-LETTERS[24:206],value.name-"Val") 
X Y Z Val 

1117 5 

2 x] 2 

3121 3 

4221 4 

5112 5 


6 2 12 6 
7122 7 
8222 8 


如 果 是 列表 数据 ，melt 函 数 将 列表 中 的 数据 拉 成 两 列 ， 


是 顶级 的 列表 元 素 名 称 越 靠 后 。 


datax <- list(agi-"AT1G10000", GO-c("GO:1010","GO:2020"), KEGG-c("0100", 
» melt (datax) 
value L1 
AT1G10000 agi 
GO:1010 GO 
GO: 2020 GO 
0100 KEGG 
0200 KEGG 
0300 KEGG 
> melt (list (at 0100=datax) ) 
value 12 L1 
AT1G10000 agi at 0100 
GO:1010 GO at 0100 
GO:2020 GO at 0100 
0100 KEGG at 0100 
0200 KEGG at 0100 
0300 KEGG at 0100 
如 果 数 据 是 数据 框 类 型 ，melt 的 参数 就 稍微 复杂 些 。 
melt(data, id.vars, measure.vars, 
variable.name = "variable", http://www.hzcourse.com/resource/readi 
value.name = "value") 
其 中 ，id.vars 是 维度 的 列 变量 ， 每 个 变量 在 
定 。 我 们 用 airquality 数 据 来 看 看 : 


> str(airquality) 

'data.frame': 153 obs. of 6 variables: 

$ Ozone : int 41 36 12 18 NA 28 23 19 8 NA ht 
$ Solar.R: int 190 118 149 313 NA NA 299 99 19 
$ Wind : num 7.4 8 12.6 11.5 14.3 7 

$ Temp : int 67 72 74 62 56 66 65 59 61 69 hi 
S.Month z int 5 55 55 55 55 5'ht 

$ Day : int 12345678 


一 列 记 录 列 表 元 素 的 值 ， 


tp://www.hzcourse.com/resource/readBook?pa 


另 一 列 记录 列表 元 素 的 名 称 ; 


Book?path-/openresources/teach ebook/uncompressed/15534/0 


"0200", "0300*)) 


194 http://www.hzcourse.com/resource/readl 
4.9 8.6 13.8 20.1 8.6 http: //www.hzcourse.com/resource/readl 
ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/0 
EBPS/Text/.. 
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Book?path-/openresources/teach ebook/uncompressed/15534/0 
Book?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/.. 
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EBPS/Text/... 
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如 果 列 表 中 的 元 素 是 列表 ， 则 增加 列 变量 存储 元 素 名 称 。 


如 果 打 算 按 月 份 分 析 臭 氧 和 太阳 辐射 、 风 速 、 温 度 三 者 ( 列 2: 4) 的 关系 ， 我 们 把 它 转 成 长 格式 数据 框 。 


> aq <- melt(airquality, var.ids-c("Ozone", 
t measure.vars-c(2:4), variable.name-"V.type", 


es: 


> str (aq) 

'data.frame' 459 obs. of 5 variabl 
$ Ozone : int 41 36 12 18 NA 28 23 |] 
$ Month : int 2 5.5 55555 55 Ht 
$ Day : int 123456789 10 ht 
$ V.type: Factor w/ 3 levels "Solar. 
$ value : num 
(2) cast 


"Month", 


"Day" ) ; 


value.name-"value") 


tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/0E 
ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/0 


m 


melt 获 得 的 数据 (molten data) 可 以 用 acast 或 dcast 还 原 。acast 获 得 


变量 被 当成 因子 类 型 。 


> head(dcast 
Ozone Mont 


( 

h Day Solar.R Wind Temp 
1 1 5. 21 8 9.7 99 
2 4 5. 23 25. 9,1 61 
3 6 5 18 78 18.4 57 
4 7 5 1 NA 6.9 74 
5 7 7 15 48 14.3 80 
6 7 9 24 49 10.3 69 
cast 函 数 的 作用 不 只 是 还 原 数据 ， 还 可 以 使 用 函数 对 数据 进行 汇总 
> dcast(aq, Month-V.type, fun.aggregate-mean, na.rm-TRUE 
Month Solar.R Wind Temp 
i 5 181.2963 11.622581 65.54839 
2 6 190.1667 10.266667 79.10000 
3 7 216.4839 8.941935 83.90323 
4 8 171.8571 8.793548 83.96774 
5 9 167.4333 10.180000 76.90000 
7.R 语 言 入 门 操作 
为 Xx 赋 1~6， 也 就 是 1、 2、 3、 4. 5. 6, 共 6 个 值 : 
x=c (1:6) 

判断 x 是 否 为 向 量 : 


is.vector (x) 


判断 x 是 否 为 数组 : 


is.array (x) 


将 x 添加 维度 从 而 变 为 数组 : 


dim (x)«-c (2,4) 


aq, Ozone-*Month4Day-V.type)) 


R","Wind",http://www.hzcourse.com/resource/readl 
190 118 149 313 NA NA 299 99 19 194 nttp://www.hzcourse.com/resource/readi 


[44 (aggregate) , 


— 


数组 ，dcast 获 得 数据 框 。 和 unstack 函 数 一 样 ，cast 国 数 使 用 公式 参数 。 公 式 的 左边 每 
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变量 都 会 作为 结果 中 的 一 列 ， 而 右边 的 


元 素 值 排列 在 前 ， 名 称 在 后 ， 越 


., na.rm = FALSE, 


结果 中 占 一 列 ; measure.vars 是 观测 值 的 列 变量 ， 它 们 的 列 变量 名 称 和 值 分 别 组 成 variable 和 value 两 列 ， 列 变量 名 称 用 variable.name 和 value.name 来 指 
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事实 上 ，melt 函 数 是 为 cast 服 务 的， 目的 是 使 用 cast 函 数 对 数据 进行 aggregate。 


和 矩阵 可 看 为 二 维 数 组 ， 和 矩阵 是 数组 的 特殊 情况 : 


is.matrix (x) 
x1-2c(10,13,45,25,124,15,25,54,46,34,064) 
x2-c(20,15,15,82,14,56,124,94,32,57,23) 
x-data.frame (xl1, x2) 


每 列 是 一 个 变量 ,每 行 是 一 个 观测 值 ， 两 个 向 量 的 长 度 必须 相等 。 


蔡 换 列 头 : 


(x=data.frame (' 重 量 '=xl, ' 运 费 '=x2)) 


从 外 部 数据 文件 中 读 取 数 据 : 


(x-read.tabl 
(x-read.tabl 
y«-read.tabl 
w«-read.tabl 
library (RODBC) 
z«-odbcConnectExcel ("test.xlsx") 
(w«-sqlFetch (z, "Sheet1")) 


"abc.txt")) 

"d:NNR WorkingNNabc.txt")) 
"clipboard",header-F) 
"Ltest.prn",header-T) 


8. 应 用 实例 


本 小 节 介绍 ， 使 用 R 语 言 做 线性 拟 合 的 方法 。 最 小 二 乘法 在 曲线 拟 合 、 参 数 估计 等 问题 中 有 着 广泛 的 应 用 。 例 如 ， 我 们 要 拟 合 一 系列 观测 数据 (t, y) ， 拟 合 遂 数 为 F(t，x) ， 它 是 关于 x 的 线性 函数 。 
对 于 这 种 最 小 二 乘法 线性 拟 合 问题 ， 可 以 通过 R 语 言 命令 求解 。 


首先 需要 加 载 ggplot2 包 : 


library (ggplot2) 


清空 缓存 中 的 所 有 数据 ， 以 免 变量 发 生 影响 : 


rm(list-ls!()) 


载 入 数据 x、y: 


x-c (0,20,40, 60,100,130,160,190) 
y=c (18,17.586,17.136,16.704,15.84,15.192,14.544,13.896) 


计算 x 的 长 度 并 赋值 给 lenx: 


lenx <- length (x) 


定义 系数 变量 sS 和 t: 


求 X 和 y 的 算术 平均 值 ， 并 赋值 : 


avgx «- mean (X) 
avgy «- mean(y) 


使 用 最 小 二 乘法 公式 : 第 一 步 ， 系 数 s=> (X-X) (Y-Y) ; 第 二 步 ， 系 数 t=> (X-X) 的 平方 。 


for(i in 1:lenx) { 
S <- S + (x[i]-avgx)*(y[i]-avgy) 
t <- t + (x[i] - avgx)^2 


第 三 步 ，s= ( (XY) -X*Y) / ( XJ - (X) 9 : 


s <- s/t 


第 四 步 ，t=Y-s*X2: 
t «- avgy - s*avgx 


第 五 步 ， 代 入 公式 f (a) =s*a+t: 


«-function(a) ís*a*t] 


输出 s: 


输出 t: 


画图 : 


base«-qplot (x, y, colour-2"red",size-2) 
base + stat function (fun-f,colour-"blue",size-1) 
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图 中 的 点 为 我 们 预 设 的 点 ， 线 是 根据 点 和 公式 计算 出 来 后 画 的 线 。 从 图 上 可 以 看 出 我 们 计算 出 的 线 可 以 与 点 重合 ， 因 此 给 出 的 x 和 y 的 点 是 线性 的 。 


如 果 是 非 线 性 的 ， 那 么 用 本 方法 得 出 的 公式 ， 其 线条 无 法 穿 过 预 设 的 点 。 结 果 如 图 10-2 所 示 。 


10.3.4 SparkR 的 DataFrame 


一 个 DataFrame 是 由 列 名 和 与 列 名 对 应 的 列 值 组 成 的 。 它 在 概念 上 等 同 于 关系 数据 库 中 的 一 个 表 或 一 个 数据 框 ， 但 在 SparkR 中 有 更 丰富 的 优化 和 操作 。DataFrame 的 构建 方法 很 多 ， 数 据 源 的 获取 方 


法 也 有 不 少 ， 如 结构 化 的 数据 文件 ，Hive 中 的 表 ， 数 据 库 中 的 表 ， 或 本 地 现 有 的 数据 。 所 有 的 例子 或 者 数据 都 可 以 在 park 下 使 用 ， 只 要 运行 Spark shell 即 可 ， 即 运行 : /bin/sparkR。 


1. 启 动 SparkContext 和 SQLContext 
启动 SparkR 之 前 ， 首 先 要 创建 SparkContext， 从 而 将 R 程 序 与 Spark 队 列 相连 接 。 可 以 使 用 sparkR.init 创 建 一 个 SparkContext 以 及 为 程序 命名 、 创 建 依赖 等 。 然 后 为 了 使 用 DataFrame， 还 需要 创建 
SQLContext， 它 也 可 以 通过 SparkContext 创 建 。 如 果 是 在 SparkR shell 上 工作 ，SQLContext 和 SparkContext 是 事先 已 经 创建 好 的 。 


图 10-2 ”输出 结果 


创建 代码 如 下 : 


SC <- sparkR.init() 
sqlContext <- sparkRSQL.init (sc) 


2. 创 建 DataFrame 
在 创建 SQLContext 和 SparkContext 之 后 ， 就 可 以 通过 本 地 数据 、Hive 或 数据 库 等 数据 源 在 创建 DataFrames。 


最 简单 的 方法 是 通过 本 地 的 R 数 据 用 SparkR 直 接 创建 DataFrame。 例 如 ， 使 用 示例 数据 中 的 faithful 数 据 创 建 DataFrame 的 代码 如 下 : 


df <- createDataFrame (sqlContext, faithful) 


head (df) 
eruptions waiting 
1 3.600 79 
2 1.800 54 
3 3.333 74 


还 可 以 通过 载 入 数据 源 的 方式 创建 DataFrame， 如 载 入 CSV 和 AVRO 文 件 时 ， 首 先 要 加 载 支 持 的 包 : 


SC <- sparkR.init (sparkPackages="com.databricks:spark-csv 2.11:1.0.3") 
sqlContext «- sparkRSQL.init (sc) 


然后 输入 文件 路 径 并 获取 对 应 的 内 容 ， 方 法 如 下 : 


people «- read.df(sqlContext, "./examples/src/main/resources/people.json", "json") 

head (people) 
age name 

1 NA Michael 

2 30 Andy 

3 19 Justin 

# SparkR 自动 推出 Json 文 件 的 Schema 

printSchema (people) 
root 
[-- age: integer (nullable 
|-- name: string (nullable 


true) 
true) 


还 可 以 将 结果 输出 为 其 他 文件 : 


write.df(people, path-"people.parquet", source-"parquet", mode-"overwrite") 


还 可 以 从 Hive 数 据 表 中 利用 SparkR 创 建 DataFrame。 首 先 要 创建 HiveContext，Spark 会 创建 Hive 依 赖 。 代 码 如 下 : 


hiveContext <- sparkRHive.init (sc) 

sql(hiveContext, "CREATE TABLE IF NOT EXISTS src (key INT, value STRING)") 

sql(hiveContext, "LOAD DATA LOCAL INPATH 'examples/src/main/resources/kvl.txt' INTO TABLE src") 
results <- sql(hiveContext, "FROM src SELECT key, value") 
head (results) 

key | value 

1 238 val 238 

2 86 val 86 

3 311 val 311 


3. 对 DataFrame 的 操作 


sparkR 的 DataFrame 支 持 一 系列 的 方法 进行 操作 。 


查询 行 、 列 : 


df <- createDataFrame (sqlContext, faithful) 
head (select (df, dfS$eruptions)) 


eruptions 
i 3.600 
2 1.800 
3 94333 


head(select(df, "eruptions")) 
head (filter (df, dfS$waiting < 50)) 
eruptions waiting 


1 1.750 47 
2 1.750 47 
3 1.867 48 


分 组 、 聚 合 : 


head (summarize (groupBy (df, dfS$waiting), count = n(dfS$waiting))) 
waiting count 


1 81 13 
2 60 6 
3 68 1 


waiting counts <- summarize (groupBy (df, df$waiting), count = n(dfSwaiting)) 
head (arrange (waiting counts, desc (waiting CountsScount) ) ) 
waiting count 


1 78 15 

2 83 14 

3 81 13 

对 列 进行 操作 : 

df$waiting secs <- df$waiting * 60 
head (df) 

eruptions waiting waiting secs 

1 3.600 79 4740 

2 1.800 54 3240 

3 3:333 74 4440 


10.4 本章 小 结 


本 章 简单 介绍 了 SparkR 相 关 的 R 语 言 、rJava 包 ，RHadoop 等 相关 知识 点 ， 并 对 SparkR 相 关 工 具 的 安装 进行 了 介绍 ， 最 后 通过 一 些 官方 案例 对 SparkR 的 使 用 进行 说 明 ， 包 括 常用 的 wordcount 和 Pi 计 


It] 


t3, tmzBlogistic regression, k-means, linear solver mnist 将 在 后 续 章节 进行 详细 讲解 。 


. 第 11 章 ”大 数据 分 析 系 统 
. 第 12 章 ”系统 资源 分 析 平 台 
. 第 13 章 ”在 Spark 上 训练 LR 模型 


第 14 章 ”获取 二 级 邻居 关系 图 


第 11 章 ”大 数据 分 析 系 统 


天 地 有 大 美 而 不 言 ， 四 时 有 明 法 而 不 议 ， 万 物 有 成 理 而 不 说 。 圣 人 者 ， 原 天 地 之 美 而 达 万 物 之 理 。 
一 一 《庄子 - 知 北 游 》 


天 地 有 最 大 的 美德 而 不 言说 ， 四 时 有 明确 的 规律 而 不 议论 ， 万物 有 生成 之 理 而 不 解说 。 圣 人 推 完 天 地 之 美德 而 通达 万 物 生 成 之 理 。 在 大 数据 时 代 ， 数 据 工程 师 和 数据 科学 家 推 完 数据 分 析 而 明白 数据 本 
质 ， 可 更 好 地 洞察 用 户 。 


如 何 探究 数据 本 质 ， 基 于 大 数据 的 统计 分 析 、 机 器 学 习 、 数 据 挖 掘 都 是 探寻 之 旅 必 不 可 少 的 环节 。 针 对 大 数据 分 析 而 言 ， 数 据 人 存储 、 数 据 采 集 、 数 据 清洗 、 统 计 分 析 ， 是 其 必 不 可 少 的 部 分 。 本 章 基于 
智能 终端 日 志 ， 重 点 讲解 如 何 构建 大 数据 分 析 系 统 ， 对 应 用 架构 进行 讲解 ， 以 及 简单 的 代码 实现 ， 希 望 可 以 起 到 抛砖引玉 的 效果 。 


从 Spark 1.3 开 始 ，Spark 将 SchemaRDD 统 一 成 DataFrame 进 行 处 理 ， 参 考 业务 实现 代码 时 ， 请 自行 按照 DataFrame 进 行 理解 ， 具 体 可 以 参考 第 6 章 。 
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随 着 智能 终端 设备 的 普及 ， 涌 现 了 越 来 越 多 的 移动 App， 我 们 以 移动 设备 上 的 “** 助 手 ”的 日 志 为 例 进行 介绍 ， 重 点 解决 多 智能 终端 经 过 后 台 服 务 进行 数据 采集 ， 以 及 对 采集 数据 进行 分 析 的 过 程 ， 
11-1 为 数据 交互 流程 。 


HERS |- A 数据 采集 


图 11-1 数据 交互 流程 图 


用 户 首先 通过 终端 设备 进行 交互 ， 所 有 用 户 的 请 求 发 送 给 “后 台 服 务 ”， 对 于 “后 台 服 务 ” 来 说 ， 要 完成 用 户 问 题 的 分 析 和 | 应答， 然后 系统 通过 Push 方 式 将 日 志 存 入 “数据 采集 系统 ”中 ， 供 后 续 进 行 
分 析 。 


这 里 的 数据 分 析 主 要 包括 以 下 几 方 面 : 
1) 流量 、 性 能 的 实时 分 析 : 对 每 个 App， 分 析 其 每 个 业务 的 流量 情况 ， 对 每 个 业务 ， 分 析 其 调用 的 性 能 情况 。 这 个 分 析 需 要 实时 的 ， 目 标 是 能 在 秒 级 完成 数据 分 析 。 
2) 流量 、 性 能 的 每 日 统计 : 和 上 面 的 统计 一 样 ， 但 是 这 里 的 统计 是 以 天 为 维度 的 ， 需 要 进行 的 是 批 处 理 统计 。 


3) 业务 的 相关 性 分 析 : 经 典 的 推荐 算法 ， 如 协同 过 滤 ， 经 常 需要 分 析 |tem 之 间 的 相关 性 ， 在 这 里 我 们 也 实现 了 一 个 简单 “ltem-to-ltem” 算 法 ， 对 每 个 业务 而 言 ， 根 据 用 户 的 行为 ， 计 算 和 它 相关 的 
topK 个 业务 。 


本 章 主要 涉及 Spark 的 批 处 理 、 流 式 计算 、SQL 等 方面 。 


11.2 ”数据 格式 


在 日 志 大 数据 分 析 业 务 场 景 下 ， 可 以 采取 各 种 数据 格式 (TXT、XML、JSON 等 ) ， 基 于 JSON 便 于 压缩 和 传输 、 方 便 转 换 、 用 户 基 数 大 等 一 些 优 点 。 假 定 日 志 格 式 是 JSJON 字 符 串 ， 示 例如 下 : 
{ 

"appid":"productname", // 表示 应 用 的 ID 信息 

"service":"servicename", // 表示 返回 的 业务 名 称 

"area":"areaname', // 表示 客户 端 省 份 名 称 

"uid":"862593025605982", // 表示 用 户 ID， 用 于 标示 每 个 终端 用 户 

"dateTime":"2015-03-19 00:00:00", // 表示 请 求 发 起 的 时 间 ， 精 确 到 秒 

"requestTime":57 // 表示 本 次 请 求 耗费 的 时 间 ， 单 位 是 毫秒 


11.3 ”应 用 染 构 


系统 的 总 体 架 构 如 图 11-2 所 示 。 


图 11-2 的 最 上 层 是 “业务 系统 ”， 指 的 是 具体 的 业务 ， 在 这 里 是 指 “** 助 手 后 台 服 务 ”， 业 务 系统 将 日 志 通 过 Push 方 式 发 送 给 “数据 收集 系统 ”， 这 样 数据 收集 系统 将 日 志保 持 在 磁盘 上 ， 并 对 外 提供 
拉 取 服务 。 


' 数 据 收集 系统 ”采用 开源 系统 Kafka 拱 建 ，Kafka 是 一 种 高 吞吐 量 的 分 布 式 发 布 订阅 系统 ， 具 有 分 区 、 多 副本 的 功能 ， 常 可 用 于 日 志和 消息 服务 ， 其 架构 如 图 11-3 所 示 。 


业务 系统 


数据 收集 系统 
! 

( MapReduce ) 
vr is s] HERI 管理 (YARN) 
存储 集群 


图 11-2 ”数据 分 析 系 统 架 构 


producer || producer - producer 


Kafka cluster. 


consumer consumer consumer 


图 11-3 Kafka 系统 架构 


Hadoop 集 群 在 这 里 主要 是 用 于 保存 用 户 的 日 志 ， 通 过 PulI 方 式 可 将 用 户 日 志 从 “数据 收集 系统 ” 读 取 出 来 ， 保 存在 HDFS 上 ， 供 后 续 分 析 使 用 。 
数据 收集 系统 一 方面 对 数据 收集 和 计算 框架 进行 梳理 ， 保 证 数据 收集 服务 稳定 ， 另 一 方面 对 推荐 系统 等 服务 进行 支持 。 
离线 计算 引擎 MapReduce 主 要 用 来 进行 离线 计算 ， 完 成 报表 分 析 。 


Spark 集 群 在 这 里 主要 是 一 个 计算 框架 ， 完 成 实时 、 批 量 计算 ,其 输入 可 以 是 “数据 收集 系统 ”， 也 可 以 是 HDFS。 


114 ”业务 实现 
基于 业务 说 明 ， 对 流量 和 数据 进行 实时 分 析 和 统计 分 析 ， 分析 业务 关联 情况 ， 以 及 生成 离线 报表 。 

11.4.1 “流量 、 性 能 的 实时 分 析 
流量 分 析 : 统计 每 个 appid 下 各 个 业务 的 流量 情况 ， 实 时 的 流量 分 析 具 有 多 种 用 途 ， 如 可 以 根据 流量 情况 进行 业务 预警 等 ; 
性 能 分 析 : 分 析 每 个 业务 的 访问 性 能 ， 包 括 最 大 响应 时 间 、 最 小 响应 时 间 、 平 均 响 应 时 间 等 。 


日 志 收 集 采 用 了 Kafka， 实 时 处 理 采 用 SparkSQL+Streaming 的 方式 进行 处 理 ， 实 时 处 理 和 分 析 中 ， 采 用 DStream 的 方式 进行 分 析 。 


基于 代码 的 分 析 情 况 如 下 : 
1. 创 建 业务 处 理 对 象 ， 进 行业 务 逻 辑 处 理 


创建 业务 处 理 对 象 ， 通 过 jsonRDD 读 取 JSON 数 据 ， 并 将 数据 转化 为 RDD， 之 后 将 RDD 注 册 成 内 存 表 SparkDemo Table， 直 接 在 SparkDemo Table 中 通过 SQL 操 作 实 现 流量 统计 和 性 能 统计 ， 示 例 代 
码 如 下 : 


object SparkDemo { 
val logger = Logger.getLogger ("SparkDemo") 
// 业务 逻辑 处 理 
def processLines (sqlContext: SQLContext, elem: RDD[String]): Unit = ( 
if (lelem.isEmpty()) { 
val sqlRDD = sqlContext.jsonRDD (elem) 
SqlRDD.printSchema () 
SqlRDD.registerTempTable ("SparkDemo Table") 
// 业务 流量 统计 
val req = sqlContext.sql ("select appid, service, count(0) from SparkDemo Table 
group by appid, service").collect() 
for (row <- req) { 

val appid = row.getString(0) 

val service = row.getString(1) 

val count = row.getLong (2) 


printf("($s, $s) -> $dWMn", appid, service, count) 
} 
// 性 能 统计 
valperf = sqlContext.sql("select service, min(requestTime), max(requestTime), 


avg(requestTime) from SparkDemo 2 Table group by service").collect() 
for (row <- perf) { 
val service = row.getString(0) 
val max = row.getLong (1) 
val min row.getLong (2) 


— 


val avg = row.getDouble (3) 

printf("$s -> (£d, $d, $f)WNn", service, max, min, avg) 
} 

} else { 

printf ("elem is empty.") 


) 


2. 通 过 StreamingContext 实 时 采集 数据 


创建 变量 sparkConf， 根 据 sparkConf 初 始 化 StreamingContext， 创 建 实例 ssc。 间 隔 每 10 秒 执行 一 次 ， 并 且 初 始 化 SQLContext。 


def main (args: Array[String]): Unit = ( 
valsparkConf = new SparkConf ().setAppName ("SparkDemo") 
// 初始 化 StreamingContext 
val ssc = new StreamingContext (sparkConf, Seconds (10)) 
ssc.checkpoint ("checkpoint/SparkDemo") 
// 初始 化 SQLContext 
val sc = ssc.sparkContext 


val sqlContext = new SQLContext (sc) 
// 设置 Kafka 的 topic 信 息 ， 后 续 补充 
ssc.start () 


ssc.awaitTermination () 
} 
} 


3. 通 过 KafkaUtils 实 时 处 理 topic 信 息 


设置 Kafka 的 topic 信 息 ， 取 出 数据 后 ， 对 数据 进行 分 词 ; 根据 KafkaUtils 工 具 createStream 配 置 Kafka 的 参数 信息 kafkaParams。 


// topic 信息 ， 这 里 使 用 了 Kafka， 假 定 topic 是 demolog 
val topic = "demolog" 
val topicMap - topic.split(",").map(( , 1)).toMap 
// 配置 Kafka 的 参数 信息 


val kafkaParams = Map ( 
"Zzookeeper.connect" -»"*,*,*,*:2181,*.*.*.,*:2181,*.*.*.*:2181/kafka-test", 
"auto.offset.reset" -»"smallest", // "largest", 


"auto.commit.enable" -»"true", 
"auto.commit.interval.ms" -»"30000", 
"zookeeper.connection.timeout.ms" -»"10000", 
"group.id" -»"sparkdemo", 
"fetch.message.max.bytes" -»"10485760", 
"fetch.size" -»"4096000" 

) 
val lines = KafkaUtils.createStream[String, String, StringDecoder, StringDecoder] (ssc, 

kafkaParams, topicMap, StorageLevel.MEMORY AND DISK).map( . 2) 

println("start to run [SparkDemo]http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...") 
// 业务 逻辑 处 理 DStream 数 据 流 
lines.foreachRDD(x =>processLines (sqlContext, x)) 


i E 
流量 、 


11.4.2 性 能 的 统计 分 析 


根据 每 日 的 日 志 对 流量 和 性 能 的 实时 统计 来 进行 分 析 ， 代 码 示例 如 下 : 


1. 创 建 业务 处 理 case 类 Message 


创建 业务 处 理 对 象 ， 定义 case 类 Message 的 appid、service、uid、dateTime、requestTime 字 段 ， 解 析 JSON 的 结果 ， 按 照 Message 格 式 进行 extract， 可 直接 进行 调用 。 


object SparkDemo 2 { 
val logger = Logger. getLogger ("SparkDemo . 2") 
case class Message(appid: String, service: String, uid: String, dateTime: String, requestTime: Long) 


// 


de 


解析 


JSON 的 结果 


f parseJson (msg: String): 


(St 


ring, String, String, String, Long) = ( 


implicit val formats = DefaultFormats 

valjsonObj = parse (msg) .extract [Message] 

(jsonObj.appid, jsonObj.service, jsonObj.uid, jsonObj.dateTime, jsonCbj.requestTime) 
} 


2. 批 量 数据 分 析 


读 取 demo 文 件 ,创建 SparkRDD， 进 行 流量 和 性 能 分 析 。 


def main(args: Array[String]): Unit = ( 
val sparkConf = new SparkConf().setAppName ("SparkDemo 2") 
// 初始 化 SQLContext 
val sc = new SparkContext (sparkConf) 
println("start to run [SparkDemo 2]http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/..." 
// $Hdfs demofile path demo 文 件 存 放 地 址 
val sampleRDD = sc.textFile("$Hdfs demofile path/request sample.txt") 
val parseRDD = sampleRDD.map(x -»parseJson(x)).persist() 
// 批量 数据 的 分 析 ， 分 析 流 量 情况 
parseRDD.map(x => i e X. 2), 1)).reduceByKey((x, y) => x + y).foreach(x => [(printf("($s, $s) -> $dWMn", x. 1. 1, x. 1. 2, x. 2)}) 
// 批量 数据 的 分 新， Le HE fe T ZU 
parseRDD.map (x (x. 2, (x. 5, x. 5, x. 5, 1))).reduceByKey((x, y) => (max(x. 1, y. 1), min(x. 2, y. 2), x. 3 + y. 3, x. 4 + y. 4)).foreach(x => ( 
printf("$s -» (hd, Sd; EE )unk, €. Ty X. X. ly E 2e 2p €. 4e 2 Xe 2 Astobouble) E B i , i E 
}) 
sc.stop() 
} 
} 
1143 ”业务 关联 分 析 


通过 上 面 的 实时 分 析 和 统计 分 析 ， 下 面 分 析 每 个 业务 的 相关 业务 ， 分 析 是 基于 用 户 的 行为 ， 如 用 户 同时 访问 了 业务 A 和 和 B， 则 认为 A 和 B 之 间 具 有 一 定 的 相关 性 。 


1. 创 建 业务 处 理 case 类 Message 


创建 业务 处 理 对 象 ， 定 义 case 类 Message 的 appid、service、uid、dateTime、requestTime 字 段 ， 解 析 JSON 的 结果 ， 按 照 Message 格 式 进行 extract， 输 出 (uid，service，1) 。 


object SparkDemo 3 { 
val logger = Logger.getLogger("SparkDemo 3") 
case class Message(appid: String, service: St 
String, requestTime: Long) 
// 解析 JSON 的 结果 
defparseJson (msg: String): (String, String, 
implicit val formats = DefaultFormats 
val jsonObj = parse (msg) .extract [Message] 

(jsonObj.uid, jsonCbj.service, 1) 


} 


ring, uid: String, dateTime: 


Long) = ( 


2. 求 相关 性 


基于 用 户 的 行为 求 相关 性 ， 共 分 为 4 步 : 


1) 计算 得 到 RDD，key-value 对 的 RDD 为 : R1: 


(item 一 (user, rating) ) 和 R2: 


(item>sqrt (ratings) ) 


2) 对 R1 和 R2 进 行 join ， 得 到 R3: 


(item ( (user, 


rating) 


, Sqrt (ratings) ) ) 
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步 计算 


得 到 R4: 


(user (item, 


rating/sqrt (ratings) ) ) , 


这 样 即 可 得 到 每 个 用 户 评价 过 的 Item 及 


规整 过 的 rating 信 息 ; 
3) 计算 Item 之 间 的 相关 性 : _R4 与 自身 做 join， 最 终 计 算出 R5: ( (item, item) , score) 
4) 汇总 Item 与 其 他 Item 的 相关 性 : _R5 与 自身 做 join ， 最 终 得 到 R6: (item1, (item2, score) ) 。 
def main (args: Array[String]): Unit = ( 
valsparkConf = new SparkConf().setAppName ("SparkDemo 3") 
// 初始 化 SQLContext 
val sc = new SparkContext (sparkConf) 
println("start to run [SparkDemo 3]http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...") 
val topK = 2 // compute the topK 
valuser item = sc.textFile("$Hdfs demofile path/request sample.txt").map(x 
—»parseJson (x)).distinct().persist() 
// 第 一 步 : 计算 得 到 Item -> (user, rating) 和 item -»sqrt (ratings) 
val item pow sqrt = user item.map(x => (x. 2,pow(x. 3.toDouble,2.0))) 
reduceByKey((a, b) => a + b) .mapValues (x -»sqrt (x) ) 
val item user = user item.map(x => 
(X. 2, i 1, x. 3.toDouble))).partitionBy (new HashParti E oner (20) ) 
// 8: PARA iten -> ((user, rating), sqrt (ratings)), 进 一 步 得 到 User-> 


diem.  rating/sqrt (ra 


cings)) 


val item user sqrt = item user.join(item pow sqrt).map(x => { 
val item = x. 1 E n 
val sqrt ratings = x. 2. 2 
val user = x. 2. 1. 1 
val rating = x. 2. 1. 2 
(user, (item, rating / sqrt ratings)) 
)) 
// 第 三 步 : 计算 item 之 间 的 相关 性 ， 这 个 相关 性 是 在 某 个 用 户 维度 上 产生 
val item item = item | user  sqrt. join (item Mem sqrt).map(x => ( 
val iteml = x. 2. 1. 1 E E 
val ratingl = x. 2. 1. 2 
val item2 = x. 2. 2.1- 
val rating2 = x. 2. 2. 2 
val score = ratingl * rating2 
if (iteml == item2) { 
((iteml1, item2), -1.0) 
) else { 
((iteml1, item2), score) 


ER 


)) 
// 第 四 步 : dRd&((iteml, item2), score) 与 自身 做 join 及 一 系列 运算 ， 得 到 item1， (item2, score) 
item item.reduceByKey((a, b) => (a + b)).map(x => (x. 1. 1, (x. 1. 2, x. 2) ) ) . 


groupByKey () . foreach (x —» ( B 
val sourcelItem = x. 1 

val topltems = x. 2.toList.sortWith( . 2 > . 2).take(topK) 
var buffer: String e "" c mE 

buffer += ("sourceltem: " + sourcelItem + " =>") 

for (item <- topItems; if item. 2 »0) ( 

buffer += ("\t(" + item. Ll +", " + item, 2 ")") 


11.4.4 ”离线 报表 分 析 


由 于 日 志 每 时 每 刻 都 在 生成 ， 而 统计 每 日 报表 时 ， 需 要 等 到 该 日 所 有 数据 收集 完毕 ， 此 时 将 会 出 现 所 有 的 日 粒度 报表 在 同一 时 间 启 动 ， 导 致 集群 任务 阻塞 严重 ， 而 在 其 他 时 间 段 集群 任务 较 少 ， 最 终 导 
致 时 间 上 任务 分 布 不 均 ， 造 成 日 粒度 报表 运行 过 慢 。 


进一步 说 ， 在 MapReduce 框 架 中 ， 如 果 Kkey 设 计 不 合理 ， 会 导致 Shuffle 后 数据 倾斜 严重 ， 一 方面 报表 运行 耗 时 更 长 ， 另 一 方面 数据 的 不 均衡 容易 导致 单 点 故障 。 

为 了 解决 上 述 问题 ， 离 线 报表 分 析 的 核心 思想 是 把 报表 输入 数据 进行 切 分 ， 并 对 切 分 的 小 块 数据 进行 分 析 生 成 较 小 的 中 间 数 据 ， 中 间 数 据 进 行 汇总 分 析 后 生成 整体 数据 的 报表 ， 以 达到 集群 资源 利用 更 
合理 、 报 表 数 据 展 示 更 及 时 的 目标 。 
1. 离 线 报表 步骤 

其 步骤 分 为 报表 设计 、 报 表 中 间 数 据 、 粗 粒度 报表 生成 、 报 表 数 据 入 库 四 大 步骤 ， 过 程 中 涉及 三 步 MapReduce 操 作 ， 详 细 描 述 如 下 : 

第 一 步 : 报表 设计 。 

报表 设计 中 区 分 维度 和 指标 ， 维 度 是 用 来 描述 数据 的 分 类 组 织 层次 结构 ， 如 应 用 名 称 、 省 份 ; 指标 包括 PV 指 标 和 UV 指标 ， 如 点 击 量 和 用 户 数 。 

第 二 步 : 报表 中 间 数 据 生成 。 

1) 将 日 志 数 据 切 分 成 若干 个 相对 较 小 的 切片 。 

2) 启动 第 一 步 MapReduce 任 务 ， 读 取 第 一 份 切片 数据 。 


3) 在 Map 阶 段 按照 算法 规则 将 每 条 日 志 生 成 对 应 的 维度 和 PV 指标 ， 将 维度 作为 key，PV 指 标 作为 value 写 出 数据 。 其 中 ， 每 遇 到 一 个 UV 指标 另外 单独 生成 一 行 数据 ， 将 维度 和 UV 指标 标识 组 合作 为 
key， 该 UV 指标 值 作为 value 写 出 数据 。 


4) Combine 阶 段 按照 相同 的 key 进 行 合并 ， 相 同 指标 进行 累加 。 

5) Reduce 阶 段 按照 相同 的 key 合 并 ， 相 同 指标 进行 累加 。 

6) 将 Reduce 阶 段 的 数据 写 入 分 布 式 文件 系统 ， 该 文件 称 为 报表 中 间 数 据 。 

重复 以 上 步骤 ， 分 别处 理 剩 下 的 切片 数据 ， 直 到 每 个 切片 数据 的 中 间 数 据 生成 。 

第 三 步 : 粗 粒度 报表 生成 。 

其 分 两 步 MapReduce 执 行 : 

1) MapReduce 读 取 所 有 报表 中 间 数 据 ， 按 照相 同 的 key 进 行 合 并 后 写 出 ， 作 为 下 一 步骤 的 输入 ; 

2) MapReduce 的 Map 阶 段 ， 遇 到 PV 指 标 直 接 写 出 ， 遇 到 UV 指标 ， 进 行 去 UV 化 ， 即 去 除 key 中 的 UV 指标 标识 字段 ， 同 时 将 对 应 的 指标 置 1 后 写 出 。 
在 Reduce 阶 段 按照 相同 的 key 进 行 合并 ，PV、 UV 指标 分 别 进 行 累加 ， 同 时 将 生成 的 数据 导入 数据 库 ， 供 查询 报表 统计 数据 。 

将 第 三 步 生成 的 数据 导入 数据 库 ， 即 可 方便 快捷 地 查询 报表 统计 数据 。 


执行 流程 如 图 11-4 所 示 。 


日 志 数 据 
不 时 被 收集 


Tac Wet bg pa] JJ 
分 成 多 分 切片 


报表 中 间 数 据 生 成 随 荐 日 志 的 
收集 ， 中 间 数 据 在 不 同时 间 段 内 
依次 生成 ， 中 间 数 据 主 要 是 维度 
和 指标 的 中 辐 结 打 


| 按照 相同 的 维度 进行 合并 , 生 
成 整体 报表 的 中 间 数 据 


=] 生成 报表 数据 并 入 库 


图 11-4 报表 执行 流程 图 


在 执行 过 程 中 ， 中 间 数 据 ; (1<i<n) 既 可 以 直接 从 第 三 步 中 的 2) 开始 执行 生成 该 粒度 的 报表 数据 ， 同 时 ， 也 可 以 与 其 他 中 间 数 据 合 并 生成 更 大 粒度 报表 的 中 间 数 据 ， 即 可 以 读 取 小 时 粒度 报表 的 中 间 
数据 生成 日 粒度 报表 的 中 间 数 据 和 最 终 报表 数据 ， 读 取 日 粒度 报表 的 中 间 数 据 生 成 周 和 月 粒度 报表 的 中 间 数 据 和 最 终 报 表 数 据 ， 读 取 月 粒度 报表 的 中 间 数 据 生成 年 粒度 报表 的 中 间 数 据 和 最 终 报表 数据 等 ， 
极 大 地 提高 了 大 粒度 报表 数据 执行 速度 ， 同 时 集群 负载 更 加 合理 。 


2. 业 务 举例 说 明 


某 平台 业务 原始 日 志 中 包含 应 用 (appid) 、 地 域 (area) 、 用 户 标 识 (uid) 等 字段 ， 现 在 需要 统计 每 天 每 个 应 用 在 不 同 地 域 的 使 用 次 数 (use times) 和 使 用 用 户 数 (users) ， 下 面 以 某 一 天 的 统计 
方式 为 例 ， 说 明报 表 分 析 过 程 。 


(1) 报表 设计 
报表 的 维度 为 appid、area， 指 标 包括 use times、users， 其 中 use times 为 PV 指标 ，users 为 UV 指标 。 
(2) 报表 中 间 数 据 生成 


为 了 方便 说 明 ， 这 里 将 一 天 的 日 志 切 分 成 两 个 切片 ， 即 前 12 小 时 和 后 12 小 时 ， 前 12 小 时 日 志 数 据 如 下 : 


appid area uid 其 他 字段 
100IME C T a1234 
100IME HIE a1234 
100IME P a4321 
5285e334 A TS 32345 
5285e334 北京 a2345 


后 12 小 时 日 志 数 据 如 下 : 


appid area uid 
100IME C T 36789 
100IME C T a6789 
100IME 并 徽 a4321 
5285e334 北京 a2345 


启动 第 一 步 MapReduce 任 务 ， 读 取 该 天 前 12 小 时 数据 。Map 阶 段 生 成 如 下 数据 ， 其 中 行 数据 中 空 值 表示 该 行 数据 无 该 列 属性 ， 前 三 列 作为 key， 后 两 列 作为 value 写 出 ， 这 里 的 uid 为 UV 指标 标识 。 


appid area uid use times users 
100IME A ] 
100IME De ] 
100IME M ] 
5285e334 C T ] 
5285e334 北京 ] 
100IME C T 31234 l 
100IME 安徽 al234 ] 
100IME C T a4321 ] 
5285e334 V T 32345 ] 
5285e334 北京 a2345 ] 


Reduce 阶 段 对 相同 key 值 的 value 数 据 进 行 合 并 ， 结 果 如 下 : 


appid 
1O0IME 
5285e334 
5285e334 
100IME 
100IME 
5285e334 
5285e334 


area 
北京 
UT. 


| — Jd m 
J| L1 
-= FIRS 


上 表 中 的 数据 即 为 报表 中 间 数 据 ， 写 入 分 布 式 文件 系统 中 。 


按照 以 上 相同 的 步骤 ， 执 行 该 天 后 12 小 时 数据 生成 中 间 数 据 如 下 : 


appid 
100IME 
5285e334 
1O0IME 
100IME 
5285e334 


(3) 报表 生成 


area 
"hr t 
北京 


北京 


uid 


al234 
a4321 
a2345 


a2345 


uid 


a6789 
a4321 
a2345 


1) MapReduce 读 取 该 天 前 12 小 时 和 后 12 小 时 中 间 数 据 ， 按 照相 同 的 key 进行 合并 ， 结 果 如 下 : 


appid 
1O0IME 
5285e334 
5285e334 
1O0IME 
1O0IME 
5285e334 
5285e334 
1O0IME 


2) MapReduce 的 Map 阶 段 进 行 去 UV 化 ， 结 果 如 下 : 


area 
TN 
北京 
TN 
"1r A 
"Lr let 
北京 


uid 


al234 
a4321 
a2345 
a2345 
a6789 


use times 
3 


] 
l 


use_times 


3 
] 


use times 


6 


] 
2 


users 


users 


users 


L2. E -— r3 


appid area use times users 
100IME "Lr ft 6 
5285e334 E ] 
5285e334 21551 2 
100IME TIR l 
100IME "LC T ] 
5285e334 
5285e334 21651 ] 
100IME TIR l 


appid area use_times users 
100IME 安生 6 3 
5285e334 TIR | ] 
5285e334 北京 2 ] 


以 上 数据 即 为 该 天 的 最 终 报表 数据 ， 在 入 库 时 添加 时 间 维 度 ， 即 可 方便 快捷 地 查询 不 同 天 的 具体 应 用 和 地 域 的 使 用 次 数 以 及 使 用 用 户 数 。 


11.5 本章 小 结 


本 章 介绍 了 基于 大 数据 分 析 系 统 的 Streaming 计 算 、SQL 计 算 、 批 处 理 ， 从 离线 数据 分 析 和 准 实时 数据 处 理 的 角度 ， 解 析 如 何 处 理 企业 实时 数据 分 析 、 业 务 统计 分 析 、 业 务 关 联 分 析 ， 以 及 在 Spark 一 栈 
式 解决 平台 下 ， 离 线 数据 统计 依然 很 有 用 处 。spark 的 RDD 的 快速 迭代 和 内 存 数据 知 读 ， 是 以 内 存 为 代价 的 ， 如 果 内 存 资 源 比 较 紧张 ， 在 离线 报表 计算 上 ， 则 不 能 体现 出 更 多 的 优势 ， 所 以 未 来 将 是 
MapReduce 和 Spark 互 相 竞争 和 配合 的 时 代 。 


第 12 草 系统 资源 分 析 平 台 


以 无 厚 入 有 间 ， 恢 恢 乎 其 于 游 刃 必 有 余地 矣 。 
一 一 《庄子 -养生 主 》 
人 生 在 天 地 之 间 ， 就 像 透 过 缝 阶 看 到 白马 飞驰 而 过 ， 不 过 一 瞬间 罢了 。 人 生 和 短促， 切 勿 浪费 ， 尤 其 是 好 好 利用 资源 ， 发 挥 资 源 最 大 的 价值 。 


对 于 大 多 数 互联 网 企业 来 说 ， 与 大 数据 分 析 岗 位 相 比 ， 大 数据 运 维 显得 微不足道 ， 熟 不 知 ， 合 理 地 利用 资源 ， 节 约 也 是 一 种 价值 。 大 数据 运 维 必 须 掌 握 的 一 件 基 本 技能 是 ， 构 建 系统 监控 环境 ， 对 系统 
环境 、 业 务 进程 状态 、 业 务 应 用 情况 进行 监控 。 本 章 重 点 讲解 如 何 构建 基于 大 数据 平台 的 系统 资源 查询 平台 ， 对 应 用 架构 进行 解析 ， 并 进行 简单 的 代码 实现 ， 和 希望 可 以 起 到 抛砖引玉 的 效果 。 


121 业务 背景 


系统 资源 监控 的 系统 有 很 多 ， 如 常用 的 Ganglia、Nagios、Zabbix 等 ， 已 经 可 以 实现 集群 的 资源 利用 情况 监控 、 报 警 ， 以 及 简单 的 分 析 。 随 着 大 数据 时 代 的 来 临 ， 以 及 Hadoop 和 Spark 的 兴 
起 ，Hadoop 和 Spark 联 合 构成 了 当今 大 数据 世界 的 基石 和 核心 ， 这 种 变化 趋势 的 结果 是 由 Hadoop 的 HDFS 负 责 数据 的 存储 和 资源 管理 ， 由 Spark 负 责 一 体 化 的 不 同 规模 的 数据 计算 。 


Di 


大 数据 在 企业 做 精细 运营 方面 也 发 挥 了 巨大 的 作用 ， 作 为 底层 服务 支撑 的 运 维 ， 需 要 掌握 大 数据 生态 圈 中 的 关键 技术 点 ， 包 括 Hadoop、Hive、HBase、Spark、Storm 等 平台 的 日 常 运营 ， 需 要 解决 包 
括 资源 调度 、 数 据 接 入 、 快 速 扩 容 、 节 点 故障 处 理 、 高 可 用 、 数 据 存 储 生 命 周 期 管理 等 问题 ， 这 给 大 数据 运 维 人 员 提 出 了 更 高 的 要 求 ， 需 要 大 数据 运 维 人 员 更 懂 业 务 ， 同 时 也 给 运 维 工作 带 来 了 新 的 机 遇 。 


由 于 Hadoop 和 Spark 作 为 分 布 式 的 存储 和 计算 平台 ， 服 务 器 的 资源 使 用 情况 监控 和 管理 也 成 为 大 数据 运 维 人 员 的 一 大 挑战 。 
12.1.1. 业务 介绍 


在 越 来 越 多 的 行业 中 ， 大 数据 已 经 成 为 支撑 业务 运营 和 发 展 的 命脉 。 在 这 样 的 企业 中 ， 都 会 存在 这 样 一 个 部 门 来 负责 系统 的 开发 、 运 营 、 维 护 等 工作 。 面 对 目前 的 状况 ， 公 司 的 !T 信 息 人 员 已 经 显得 力 
不 从 心 。 随 着 公司 未 来 业务 的 不 断 发 展 ， 服 务 器 的 数量 必定 要 不 断 增加 ， 那 么 到 时 业务 的 规模 必定 不 断 增加 。 针 对 当前 的 服务 器 集群 及 未 来 不 断 投入 使 用 的 新 服务 器 ， 公 司 的 IT 信息 人 员 为 了 适应 企业 的 发 
展 需 求 ， 迫 切 需要 提高 自己 的 维护 方法 。 然 而 ， 靠 增加 人 力 资源 只 能 是 一 种 治标 不 治本 的 办 法 ， 并 且 维 护 管理 成 本 也 一 直 会 高 居 不 下 。 更 为 重要 的 是 ,一 旦 发 生 故 障 时 ,根本 不 太 可 能 及 时 地 做 出 响应 并 在 
尽 可 能 短 的 时 间 内 和 解决 问题 ， 这 样 必然 会 大 大 影响 公司 的 正常 运营 ， 给 企业 效益 造成 很 大 的 损失 。 因 此 ， 如 何 能 够 更 快 地 监控 服务 器 的 状态 变 得 尤为 重要 。 


业务 主要 为 及 时 监控 系统 性 能 ， 如 CPU、 内 存 、 硬 盘 利 用 率 ，MO 负 载 、 网 络 流量 情况 等 ， 通 过 曲线 很 容易 见 到 每 个 节点 的 工作 状态 ， 对 合理 调整 、 分 配 系统 资源 ， 提 高 系统 整体 性 能 起 到 重要 作用 。 监 
控 系 统 性 能 主要 面临 着 两 个 方面 的 问题 ， 系 统 服务 器 信息 的 收集 和 集群 服务 器 信息 的 可 视 化 。 


12.1.2 ”实现 目标 


系统 环境 监控 的 目的 主要 是 提升 资源 利用 率 ， 对 系统 资源 及 时 查询 和 分 析 。 使 用 有 限 的 资源 最 大 限度 地 保障 业务 运营 ， 提 升 资源 利用 率 ， 节约 资 源 成 本 ; 建立 一 套 通过 监控 系统 资源 持续 改进 的 机 制 |， 
是 大 数据 运 维 必 要 的 手段 ， 也 是 大 数据 运 维 的 目标 之 一 。 所 有 大 数据 运 维 管 理 的 方法 和 过 程 都 应 该 围绕 这 一 目标 ， 否 则 就 可 能 “ 南 辕 北 辐 ”。 


监控 系统 性 能 ， 如 CPU、 内 存 、 硬 盘 利 用 率 、1/O 负 载 、 网 络 流量 情况 等 。 无 论 使 用 哪 一 种 资源 ， 当 使 用 率 达 到 80% 以 上 ， 系 统 性 能 会 整体 下 滑 。 通 过 曲线 很 容易 见 到 每 个 节点 的 工作 状态 。 从 而 合理 调 
整 、 分 配 系统 资源 ， 提 高 系统 整体 性 能 。 


12.2 ”应 用 架构 
通过 对 业务 背景 的 分 析 ， 对 总 体 架构 进行 设计 ， 重 点 说 明 各 模块 的 具体 设计 。 
12.2.1 总体 架构 


系统 资源 查询 平台 总 体 主要 为 三 部 分 ， 分 别 为 Kafka 集 群 、 数 据 采 集 模 块 和 数据 展示 模块 。 具 体 包括 数据 源 层 、 传 输 层 、 存 储 层 、 处 理 层 、 数 据 表现 层 。 


数据 源 层 主要 负责 数据 的 采集 ， 传 输 层 主要 负责 数据 的 消息 队列 ， 人 存储 层 主 要 进行 消息 队列 的 存储 ， 处 理 层 主要 对 存储 的 数据 进行 深入 的 处 理 分 析 ， 数 据 表 现 层 主要 提供 信息 展示 ， 以 更 好 地 查询 系统 
信息 ， 总 体 框架 如 图 12-1 所 示 。 


数 
据 
表 
现 
层 


图 12-1 系统 总 体 架构 图 


系统 采用 Kafka 集 群 消息 作为 系统 的 传输 层 ，Hive 作 为 数据 的 存储 层 ， 处 理 层 采用 Spark 对 数据 进行 分 析 。 


12.2.2 ”模块 架构 


于 总 体系 统 架构 ， 现 在 重点 说 明 作为 传输 层 的 Kafka 消 息 队 列 、 数 据 源 层 的 数据 采集 和 用 户 层 的 数据 表现 。 


1.Kafka 集 群 


Kafka 是 Linkedln 开 发 并 开源 出 来 的 一 个 高 吞吐 的 ， 基 于 发 布 /订阅 的 分 布 式 消息 系统 ， 如 图 12-2 所 示 ， 利 用 Kafka 搭 建 了 一 套 分 布 式 消息 处 理 系统 。 


Kafka 集 群 主要 包括 以 下 组 件 , 话题 (Topic) 是 特定 类 型 的 消息 流 ， 消 息 是 字 节 的 有 效 负 载 (Payload) ， 话 题 是 消息 的 分 类 名 ; 生产 者 (Producer) 是 能 够 发 布 消息 到 话题 的 对 象 ; 已 发 布 的 消息 保 
存在 一 组 被 称 为 代理 (Broker) 的 集群 中 ; 消费 者 (Consumer) 可 以 订阅 一 个 或 多 个 话题 ， 并 从 Broker 拉 数据 ， 从 而 消费 这 些 已 发 布 的 消息 。 
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Kafka Cluster 
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图 12-2 ”Kafka 分 布 式 系统 架 


Kafka 分 布 式 系统 架构 使 用 ZooKeeper 完 成 系统 协调 ，ZooKeeper 用 于 管理 、 协 调 Kafka 代 理 。 每 个 Kafka 代 理 都 通过 ZooKeeper 协 调 其 他 的 Kafka 代 理 。 当 Kafka 系 统 中 新 增 了 代理 或 者 某 个 代理 故障 
失效 时 ，ZooKeeper 服 务 将 通知 生产 者 和 消费 者 。 生 产 者 和 消费 者 据 此 开始 与 其 他 代理 协调 工作 。 


2. 数 据 采 集 层 


数据 采 
指标 会 发 送 


RRA 


关 给 Kafka 集 群 。 


3. 数 据 表现 层 


< 集 采 取 在 Producer 庙 集成 KAFKA_HOME/libs 目 录 下 的 Kafka 基 础 jar 包 ， 然 后 定期 发 送 特定 主题 (Topic) 的 数据 。 收 集 的 服务 器 、 磁 盘 人 存储、 磁盘 MO、CPU 以 及 内 存 使 用 情况 的 信息 以 及 相关 


数据 表现 层 主 要 采用 PlayFramwork 框 架 (全 栈 的 Java Web 应 用 框架 ) ， 基 于 Play Framwork， 使 用 Bootstrap 框 架 展示 数据 采集 层 数 据 的 展示 ， 由 于 数据 采集 层 的 数据 源 自 两 个 部 分 ， 因 此 在 展示 部 
分 , 一 部 分 采用 Spark Hive 对 数据 查询 方式 进行 非 实时 数据 的 显示 ， 一 部 分 采用 消费 Kafka 消 息 的 方式 进行 实时 数据 的 显示 。 


12.3 ”代码 实现 


下 面 主要 从 Kafka 集 群 、 数 据 采集 、 离 线 数据 处 理 、 数 据 表现 等 方面 进行 实现 说 明 。 


12.3.1 Kafka 集群 


1.Kafka 


Kafka 对 消息 保存 时 根据 话题 Topic 进 行 归 类 ， 通 过 生产 者 发 送 消息 者 ， 通 过 消费 者 订阅 消息 并 处 理发 布 的 消息 。 


如 果 需 要 启动 多 个 Broker 实 例 ， 需 要 准备 多 个 server.properties 文 件 。Kafka 的 配置 文件 server.properties 的 示例 配置 如 下 : 


THHHHHHHHHHHHHE Server Basics 1HHHHHEHEHEHEHEEHEHEHEHEHEH E EHE EHE E E E E E E E 
broker.id-0 
JHHHHHHHE Socket Server Settings JHHHBEBHBEBHBHBBHHBBBHHBBHHBBE 
port the socket server listens on 


# The 


port-9098 


# Hostname the broker will bind to. If not set, the server will bind to all interfaces 
dhost.name-localhost 

number of threads handling network requests 

num.network.threads-2 


# The 


# The 


number of th 


num.io.threads-8 


# The 
socke 
# The 


Socket 


# The 


socket 


send buffer 


reads doing disk I/O 


(SO SNDBUF) used by the socket server 


t.send.buffer 
ffer (SO RCVBUF) used by the socket server 


receive bu 


.bytes-1048576 


.receive.bu 


Ffer.bytes-1048576 


maximum size 


of a request that the socket server will accept (protection against OOM) 


.request.max 


THHHHHHHHHBHBHHHHE 


4 A comma seperated list of directories under which to store log files 
log.dirs-/S$SKafka home/logs 


# the 


.bytes-104857600 
Log Basics HH ib HHREHBIBEHBERHRBHBEBBRIBEEHE E E 


brokers. 


num.partitions-2 
THHHHBHHHEHEHEEHHEE Log Flush Policy THHHRHEHHBEHHHHHBRBRBRRHHRHBRBBRBHEHE E E 
4 Messages are immediately written to the filesystem but by default we only fsync() to sync 


# the OS cache lazily. The following configurations control the flush of data to disk. 
flog.flush.interval.ms-1000 

JHHHHEHHHHBHHHHHE Log Retention Policy IHBHHBEBBHHHEBBHHHBBHHEBBHHHBBHHHEBUNE 
log.retention.hours-1 

log.retention.check.interval.ms-5000 

log.cleaner.enable-true 
THHHHHHHEHEHE: Zookeeper dHBBHBHEHHBBBERHHHHBERRHBRHHRBHBBBBIEE 

# root directory for all kafkaznodes. 
Zzookeeper.connect-*.*.*.10:2181,*.*.*.11:2181,*.*.*.12:2181 
4 Timeout in ms for connecting to zookeeper 
Zookeeper.connection.timeout.ms-1000000 


启动 Kafka 的 Broker: 


bin/kafka-server-start.shconfig/server.properties& 


创建 一 个 Topic: 


bin/kafka-topics.sh --create  --zookeeper *.*.*.10:2181, *.*.*.11:2181, *.*.*.12:2181 
--replication-factor 1 --partitions 1 --topic topicO 


查看 创建 的 Topic 列 表 : 


bin/kafka-topics.sh --zookeeper *.*.*.10:2181, *.*.*.11:2181, *.*.*.12:2181 --list 


为 创建 的 Topic 发 送 数据 : 


bin/kafka-console-producer.sh  --topic topic0 --broker-list localhost:9098 


查看 生产 的 数据 : 


bin/kafka-console-consumer.sh --zookeeper *.*.*.10:2181, *.*.*.11:2181, *.*.*.12:2181 
--topic topicO 


2.Kafka Producer 


Kafka 的 Producer 也 是 采用 执行 进程 的 方式 收集 数据 ， 再 把 收集 到 的 数据 作为 Producer， 发 送 到 相应 的 Topic 中 ， 如 NET 的 数据 发 送 到 NETtopic 中 ， 示 例 代 码 如 下 : 


// 获取 系统 资源 信息 
KafkaObjectSenderkfs = new KafkaObjectSender (5000,"*.sh"); 
while (beginDate.getTime() < new Date().getTime())( 

StringBuildersb = new StringBuilder(); 
sb.append (k£s.getDestMachine ()) . append ("Nt") . append ("net") . append ("Nc") . 
append (getNextPeriodDate ()) .append ("Vt") . append (cunInSpeed) . append ("Nc") . 
append (cunInSpeeQg); 
// 发 送 数据 
ProducerFactory.getInstance().send(new KeyedMessage«Integer, String» (KafkaProperties. 
topic, sb.toString())); 

Thread.sleep (50); 


} 
以 上 代码 把 收集 的 数据 作为 字符 串 ， 通 过 Kafka 进 行 传输 。 
3.Kafka Consumer 


在 实时 数据 显示 模块 ， 显 示 最 近 1 个 小 时 的 数据 。 


首先 ， 找 到 Topic 的 那个 分 区 (partition) ， 然 后 找到 负责 该 分 区 的 brokerleader， 从 而 找到 存 有 该 分 区 副本 的 那个 Broker， 然 后 请 求 并 获取 (fetch) 数据 。 


public List«String» run(long a maxReads, String a topic, inta partition, List«String» a seedBrokers,inta port) throws Exception { 
List«String»resStrs = new ArrayList«String»(); 
// 1,9089,monitor,0 


PartitionMetadata metadata = findLeader(a seedBrokers, a port, a topic, a partition); 

String leadBroker - metadata.leader().host(); i B E 

String clientName = "Client " + a topic + " " + a partition; 

SimpleConsumer consumer = new SimpleConsumer(leadBroker, a port, Int.MaxValue(), 128 * 1024, clientName); 


longreadOffset = getLastOffset(consumer, a topic, a partition, kafka.api.OffsetRequest. EarliestTime(), clientName); 
// 错误 处 理 

intnumErrors = 0; 

while (a maxReads» 0) { 

if (consumer == null) { 

consumer = new SimpleConsumer(leadBroker, a port, Int.MaxValue(), 128 * 1024, clientName); 


} 


FetchRequestreq = new FetchRequestBuilder().clientId(clientName).addFetch(a topic, a partition, readOffset, Int.MaxValue()).build(); 
FetchResponsefetchResponse = consumer.fetch (req); 
if (fetchResponse.hasError())( 
numErrors-t-t; 
// Something went wrong! 
short code = fetchResponse.errorCode(a topic, a partition); 
if (numErrors» 5) B i 
break; 
if (code == ErrorMapping.OffsetOutOfRangeCode()) { 
// asked for an invalid offset. 
readOffset = getLastOffset(consumer, a topic, a partition, kafka.api.OffsetRequest. LatestTime(), clientName); 
continue; 


} 

consumer.close(); 

consumer - null; 

leadBroker = findNewLeader (leadBroker, a topic, a partition, a port); 
continue; 


} 
numErrors = 0; 
longnumRead - 0; 


for (MessageAndOffsetmessageAndOffset : fetchResponse.messageSet(a topic, a partition)) { 
longcurrentOffset = messageAngOffset.offset(); 

if (currentOffset«readgOffset) { 
continue; 

} 

readOffset = messageAndOffset.nextOffset(); 


ByteBuffer payload = messageAndOffset.message().payload(); 
byte[] bytes = new byte[payload.limit()]; 
payload.get (bytes); 
resStrs.add("this is result:" + new String(bytes, "UTF-8")); 
numRead++; 
a maxReads--; 
} 
if (numRead == 0) { 
try (Thread.sleep(1000);] 
catch (InterruptedExceptionie) {} 


} 

} 

if (consumer != null) 
consumer.close(); 
returnresStrs; 


非 实 时 数据 ， 采 用 一 直 运 行 Consumer 的 方式 ， 持 续 地 收集 相应 Topic 的 数据 ， 对 数据 进行 格式 化 并 存储 到 Hive 中 。 


12.3.3 ”数据 采集 


数据 采集 通过 开启 进程 定时 执行 脚本 ， 从 而 收集 服务 器 的 信息 。 
示例 代码 部 分 如 下 : 


# ./cpuCheck.sh localhost 

# * 2.5%us,0.8%sy,96.1%id,0.0%wa, 

# 收集 信息 

# Gparamserver id 
publicbooleanparseResultInsert (long server id){ 
resultList = this.getMonitorResult (); 

cpus = new ArrayLlist«CpuInfo»(); 

String[] str; 

CpuInfocpu; 
try{ 


for (String result :resultList){ 

str = result.split("[\\s]+"); 

cpu = new CpuInfo(server id, new Date(), new Date(), str[0], str[1], str[2], 
str[3], getPeriod()); 


cpus .add (cpu) ; 

) 

)catch (Exception e)í]) 
returnSmanageFactory.insertToCpuInfo (cpus); 


12.3.3. ”离线 数据 处 理 


可 以 从 Hive 中 获取 所 有 时 间 点 的 详细 信息 ， 使 用 Spark 对 数据 进行 分 析 ， 主 要 包括 以 下 几 部 分 : 
* 一 天 中 各 参数 的 压力 情况 ; 

:一周 中 各 参数 的 压力 情况 ; 

某 一 台 服 务 器 各 参数 的 对 比 情况 。 


以 一 天 中 I/O 的 压力 情况 为 例 ， 从 Hive 中 读 取 这 一 天 中 I/O 的 所 有 数据 ， 把 每 15 分 钟 的 数据 作为 一 个 处 理 节点 ， 求 其 平均 值 ， 并 进行 存储 。 


12.8.4 数据 表现 


数据 表现 主要 包括 实时 数据 和 非 实时 数据 和 rlive 存 储 数据 的 表现 。 


1. 实 时 数据 表现 


实时 数据 的 消费 ， 是 通过 Kafka 的 Consumer 收 集 数据 传递 给 前 台 ， 接 收 Kafka 数 据 方式 代码 如 下 : 


public static List«String»getKafkaData ()í 
longmaxReads = Long.parseLong ("3"); 
String topic - "monitor"; 
int partition - Integer.parseInt ("0"); 
List«String» seeds = new ArrayList«String»(); 
seeds.add("*.*.*.*"); 
int port = Integer.parseInt ("9098"); 
try 1 
returnKafkaLogDao.getInstance().run(maxReads, topic, partition, seeds, port); 
) catch (Exception e) { 
e.printStackTrace(); 


} 
} 


return null; 


根据 时 间 戳 获取 相应 时 间 网 络 情况 的 数据 ， 并 按照 JJON 格 式 进 行 封装 ， 传 递 给 前 台 。JSON 数 据 格式 如 下 : 


"time": "2015-02-14 11:41:15", 
"valge : "2351" 


"time": "2015-02-14 11:41:45", 
"value": "2277" 


这 时 ， 前 台 通 过 异步 请 求 获取 数据 情况 并 利用 Highchart 动 态 地 显示 出 来 。 


2. 非 实时 数据 表现 


采用 play 框 架 显示 数据 信息 和 服务 器 信息 。 从 Hive 中 读 取 非 实 时 的 数据 ， 并 提供 相应 的 查询 。 


在 前 台数 据 的 显示 中 ， 我 们 采用 了 Bootstrap 框 架 ， 在 main.scala.html 中 引入 : 


ink rel="stylesheet" type="text/css" media="screen" href-"(»routes.Assets. 
ink rel="stylesheet text/css" media="screen" href-"(iroutes.Assets. 
ink rel="stylesheet" type="text/css" media="screen" href="@routes.Assets. 
ink rel="stylesheet text/css" media="screen" href=" @routes.Assets. 


("stylesheets/bootstrap.min.css")"» 
("stylesheets/bootstrap.css")"» 
("stylesheets/main.css")"» 
("stylesheets/bootstrap-datetimepicker.min.css")"» 


和 人 和 人 和 人 和 


oot 


服务 器 信息 页 面 采 用 Scala 语 言 编写 ， 遍 历 如 下 : 


人 


table class-"servers zebra-striped"» 
thead» 


^ 


«tr» 

Gheader("server os", "操作 系统 ") 

Gheader("server ip", "IP") 
Li 
Lu 


( 
( 
Gheader("server name"， "主机 名 ") 
Qheader("server basic", "设备 配置 ") 

( 

( 

( 


Qheagder ("server admin", "责任 人 ") 
aheader ("remarks"， "备注 ") 
Gheader("server area", "地 区 ") 

«/tr» 

«/thead» 

«tbody» 

for (server <- currentPage.getList)(í 


Qif(server.server ip == null) { 
<em>-</em> 

) else { 

QGserver.server ip 


} 


«/td»«td» 
Qif(server.server name == null) { 
«em»-«/em» 
) else ( 


«a href-"Q(routes.Application.edit (server.server id)"» 
Gserver.server name</a> 

} 

«/td»«td» 

Gif(server.server basic == null) { 

«em»-«/ em» 


) else { 8server.server basic) 


«/td» 
«td» 
QGif(server.server admin == null) ( 
«em»-«/em» v 

) else { Gserver.server admin) 
«/td»«td» 
Qif(server.remarks == null) { 
«em»-«/em» ) else ( Q8server.remarks) 
«/td»«td»8if(server.server area == null) { 
«em»-«/em») else (8server.server area) 
«/td» 
«/tr» 
} 
</tbody> 
</table> 


另外 ， 采 用 Highchart 显 示 Spark 处 理 后 的 数据 。 
3.Hive 存 储 表现 
Hive 作 为 数据 的 存储 层 ， 使 用 MySQL 做 元 数据 保存 的 数据 库 ， 需 要 复制 mysql-connector-java-*.*.*-bin.jar 到 $HIVE_ HOMENlib 的 目录 下 ， 修 改 配置 文件 hive-site.xml， 主 要 配置 如 下 : 


«property» 

«name»javax.jdo.option.ConnectionURL«/name» 

«value»jdbc:mysql:// *.*.*.*:3306/ganglia hive?createDatabaselfNotExist-true«/value» 
«description»JDBC connect string for a JDBC metastore«/description» 

</property> 

<property> 

<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql.jdbc.Driver</value> 
<description>Driver class name for a JDBC metastore</description> 
</property> 

<property> 

<name>javax.jdo.option.ConnectionUserName</name> 
<value>smanager</value> 

<description>Username to use against metastore database</description> 
</property> 

<property> 

<name>javax.jdo.option.ConnectionPassword</name> 
<value>smanager123</value> 

<description>password to use against metastore database</description> 
</property> 


下 面 介绍 数据 存储 层 Hive 表 的 设计 ， 以 服务 器 表 server_info 为 例 ， 如 表 12-1 所 示 。 


表 12-1 Hive 表 的 设计 


字段 名 数据 类 型 备 注 
server id INT Ri d ID 
server os STRING 操作 系统 
server ip STRING IP 地 址 
server name STRING FE 机 名 
server basic STRING 
server admin STRING 负责 人 
remarks STRING & i 
server area STRING 所 属地 区 


Lem 
Cu 
u- 

上 
mu 


Hive 表 创建 好 后 ， 后 台 启 动 hive 命 令 如 下 : 


bin/hive --service hiveserver »/dev/null 2»/dev/null & 


这 里 介绍 一 下 使 用 Hive java API 连 接 数 据 库 ， 通 过 Hive 的 HiveUtil 类 ， 代 码 如 下 : 


package com.iflytek.common.util; 
import java.sql.Connection; 
import java.sql.DriverManager; 
import java.sql.SQLException; 
public class HiveUtil { 

/** 

* 如 果 发 生 异 常 ， 返 回 nul1 

* Qreturn 

* (throws Exception 


*/ 


public static Connection getConnection (){ 


try { 
Class. í 
conn 


e.print 


return 


} 


public static void close (Connection conn) 


if (conn 
try { 

conn.cl 
) catch 


Connection 


) catch 
StackTrac 
} 


conn; 


(1 
e 


!-null)( 


ose(); 
(Exception 


EX 
0 


conn null; 


ForName ("org.apache.hadoop.hive.jdbc.HiveDriver"); 
DriverManager.getConnection ("jdbc 


:hive:// 192.168.86.39:10000/def 


Fault", 
zf 
zf 


{ 


ception e) 


, 


{ 


{ 


e) 


e.printStackTrace(); 


} 
} 


通过 HiveDAO 类 ， 我 们 可 以 链接 到 Hive， 操 作 Hive 表 的 ServerlnfoHiveDAO 类 如 下 : 


package com.iflytek.dao; 
import com.iflytek.common.util.HiveUtil; 
import com.iflytek.models.ServerInfo; 
import java.sql.Connection; 
import java.sql.ResultSet; 
import java.sql.Statement; 
import java.util.ArrayList; 
import java.util.List; 
public class ServerInfoHiveDAO { 
/*** 
* 获取 数据 的 个 数 
* Qreturn 
*/ 
public static intgetCount () { 
Connection connection = HiveUtil.getConnection(); 
String sql = "select count (1) from server info"; 
try { 
Statement stmt = connection.createStatement (); 
ResultSet rs = stmt.executeQuery (sql); 
rs.next(); 
return rs.getInt (1); 
)catch (Exception e)í( 
e.printStackTrace(); 
)finally { 
HiveUtil.close (connection); 
} 
return 0; 
} 
/*** 
* 批量 插入 数据 
* Qparam serverInfoList 
* 
/ 
public static void insertList(List«ServerInfo» serverInfoList){ 
Connection connection - HiveUtil.getConnection(); 
try { 
String sql = "INSERT INTO TABLE server info VALUES " ; 
inti-^1; E 
for (ServerlInfo server :serverInfoList)( 
Sql += server.getsqgl(); 
if( i«serverInfoList.size( ) ) { 
sqi += maTs 
} 
lg 
} 
Statement stmt = connection.createStatement (); 
stmt.execute (sql); 
)catch (Exception e)í( 
e.printStackTrace(); 
} 
} 
/*** 
* 获取 表 的 所 有 数据 
* Qreturn 
M 
public static List«ServerInfo» getAll()( 
List«ServerInfo» serverInfolist = null; 
Connection connection - HiveUtil.getConnection(); 
String sql = "select * from server info"; 
try ( 
serverInfoList = new ArrayList«ServerInfo»(); 
ServerInfo serverInfo = null ; 
Statement stmt = connection.createStatement (); 
ResultSet rs = stmt.executeQuery (sql); 
while(rs.next()) { 
serverInfo = new ServerInfo(); 
serverInfo.setServer id(rs.getLong(1)); 
serverInfo.setServer os(rs.getString(2)); 
serverInfo.setServer name (rs.getString(3)); 
serverInfo.setServer basic (rs.getString(4)); 
serverInfo.setServer admin (rs.getString(5)); 
serverInfo.setServer area (rs.getString(6)); 
serverInfo.setRemarks (rs.getString(7)); 
serverInfoList.add(serverInfo); 
} 
}catch (Exception e){ 


12.4 


1.Kafka 发 送 


Kafka 发 送 的 是 网 络 数据 ， 


e.printStackTrace(); 


) 


return serverl 


nfoList; 


的 数据 


运行 KafkaObjectsender 打 印 的 数据 即 是 友 送 的 数据 。 部 分 数据 如 下 : 


mange01net2015-02-14 12:23:261505KBps 
mange01net2015-02-14 12:23:311629KBps 
mange01net2015-02-14 12:23:361507KBps 
mange01net2015-02-14 12:23:411899KBps 
mange01net2015-02-14 12:23:461505KBps 


2.Kafka 接 收 的 数据 


在 接收 到 数据 后 ， 对 数据 进行 预 处 理 ， 转 换 成 类 似 1、2、3、4 节 中 的 JSON 格 式 数据 。 


"time": "2015-02-14 11:41:15", 
"value": "2351" 


"time": "2015-02-14 11:41:20", 
"value": "1805" 


}] 


3. 实 时 数据 的 展示 
可 以 通过 页 面 查 看 当前 时 间 最 近 一 个 小 时 各 参数 (MO、 磁 盘 、CPU、 网 络 、 内 存 ) 的 数据 折线 图 ， 并 且 可 以 方便 地 查找 各 参数 每 个 时 间 点 的 数据 ， 如 图 12-3 所 示 。 


服务 器 性 能 指标 实时 监控 
Note: 抑 动 下 表 选 择 展示 区 域 


Ok 
| 一 
15:54 15:56 15-58 16-00 16:02 16:04 16:06 16:08 16:310 16:12 
15:20:00 15:25:00 15:30:00 15:35:00 15:40:00 15:45:00 15:50:00 15:55:00 16:00:00 16:05:00 16:10:00 16:15:00 


图 12-3 ”一 个 小 时 网 络 吞吐 率 
图 12-3 充 分 地 展示 了 mange01 服 务 器 最 近 一 个 小 时 网 络 吞吐 率 的 情况 ， 并 可 以 查看 每 个 时 间 点 的 网 络 情况 。 


集群 一 段 时 间 硬 件 资 源 的 使 用 情况 ， 可 以 使 用 图 12-4 的 雷达 图 表示 。 此 界面 充分 地 展示 了 mange01 服 务 器 最 近 一 周 硬件 资源 的 使 用 情况 。 


网 络 给 山 


图 12-4 硬件 资源 使 用 雷达 图 


12.5 本章 小 结 


本 章 介绍 了 基于 大 数据 的 系统 资源 查询 平台 具体 情况 ， 从 业务 背景 和 实现 目标 开始 ， 对 系统 的 应 用 结构 进行 说 明 ， 采 用 了 比较 流行 的 Kafka 消 息 队 列 模式 。 对 资源 数据 进行 采集 、 非 实时 数据 处 理 等 ， 
最 后 采取 简单 的 页 面 对 数 据 进行 展示 。 


练 LR 模型 


第 13 章 在 Spark_ 上 计 


不 以 物 挫 志 。 
一 一 《庄子 :天 地 》 


不 因 外 物 而 扰乱 自己 的 心志 ， 不 可 玩物 两 志 。 我 们 要 深入 挖 据 生活 中 导致 形 志 之 物 ， 深 刻 了 解 其 本 质 ， 并 进行 把 握 和 驾驭 ， 从 而 主导 自己 的 生活 。 
Spark 是 基于 MapReduce 算 法 实现 的 分 布 式 计算 ， 拥 有 Hadoop MapReduce 所 具有 的 优点 ; 但 不 同 于 MapReduce 的 是 ，Job 中 间 输 出 和 结果 可 以 保存 在 内 存 中 ， 从 而 不 再 需要 读 写 HDFS， 因 此 
Spark 能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 等 需要 从 代 的 MapReduce 算 法 。 
公司 的 主要 收入 来 源 ， 当 前 的 收费 模式 是 按 用 户 点 击 广告 的 次 数 收费 ， 而 广告 位 的 个 数 是 有 限 的 。 我 们 可 以 采用 逻辑 回归 (Logistic Regression, LR) 模型 来 预测 用 户 行 


例如 ， 搜 索 广 告 是 搜索 引擎 
为 ， 提 高 广告 点 击 率 ， 从 而 提高 公司 的 收益 。 由 于 广告 数据 的 庞大 ， 我 们 可 以 使 用 Spark 平 台 训 练 逻 辑 回 归 模型 


本 章 基于 Spark 平 台 ， 重 点 介绍 MLlib 机 器 学 习 库 中 的 LR 源码 部 分 ， 以 及 如 何 对 大 数据 进行 LR 模型 训练 ， 并 检验 模型 的 准确 性 。 


13.1 逻辑 回归 简介 

逻辑 回归 (Logistic Regression, LR) 是 当前 业界 比较 常用 的 机 器 学 习 方 法 ， 用 于 估计 某 种 事物 的 可 能 性 。 例 如 ， 某 用 户 购买 某 商品 的 可 能 性 ， 某 病人 患 有 某 种 疾病 的 可 能 性 ， 以 及 某 广 告 被 用 户 点 击 
的 可 能 性 等 。 (这 里 是 “可 能 性 ”,， 而 非 数 学 上 的 “概率 ”， 人 逻辑 回归 的 结果 并 非 数学 定义 中 的 概率 值 ， 不 可 以 直接 当 作 概率 值 来 用 。 该 结果 往往 用 于 和 其 他 特征 值 加 权 求 和 ， 而 非 直 接 相 乘 。) 
逻辑 回归 是 一 个 学 习 f: X 一 Y 方 程 或 者 P (YIX) 的 方法 ， 这 里 Y 是 离散 取 值 的 ，X= (X1, Xo, .., X) 任意 一 个 向 量 ， 其 中 每 个 变量 离散 或 者 j 
回归 是 一 种 易 理解 的 模型 ， 相 当 于 y=f (x) ， 表 明 自 变量 x 与 因 变 量 y 的 关系 。 逻 辑 回归 模 型 仅 在 线性 回归 的 基础 上 ， 套 用 了 一 个 逻辑 函数 ( 见 图 13-1) ， 但 正 是 该 逻辑 函数 ， 使 得 逻辑 回归 模型 成 为 机 


器 学 习 领 域 一 颗 钓 眼 的 明星 ， 更 是 计算 广告 学 的 核心 。 


图 13-1 逻辑 曲线 


F^. ] 
=- B= 二 -一 
á \ ) 1 + exp( - (WX + w,)) 


; AU, DHR (IS)fEinTiR 730.5) 。 


AA, ER DXA, TAEAE, p> RA, DAA; A 
Spark 是 基于 内 存 的 迭代 计算 框架 ， 适 用 于 需要 多 次 操作 特定 数据 集 的 应 用 场合 。 需 要 反复 操作 的 次 数 越 多 ， 所 需 读 取 的 数据 量 越 大 ， 受 益 越 大 ， 数 据 量 小 但 是 计算 密集 度 较 大 的 场合 ， 受 益 就 相对 较 


小 。 


逻辑 回归 模型 的 训练 ， 正 是 需要 大 量 的 迭代 计算 ， 可 以 充分 发 挥 Spark 内 存 缓存 的 优势 。 因 此 ， 我 们 选择 使 用 Spark 对 大 数据 进行 逻辑 回归 模型 训练 。 本 章 余下 部 分 主要 涉及 Spark 的 MLlib 机 器 学 习 
库 、LR 模 型 调用 、AUC 计 算 等 方面 。 


13.2 数据 格式 


spark 的 LR 模 型 训练 数据 的 格式 为 LIBSVM 数 据 格式 : 


Label 1:value 2:value …. 


Label: 是 类 别 的 标识 ， 在 广告 曝光 数据 中 ， 用 0 和 1 表示 是 否 点 击 。 
value: 就 是 要 训练 的 数据 ， 从 分 类 的 角度 来 说 就 是 特征 值 ， 数 据 之 间 用 空格 隔 开 。 在 广告 曝光 数据 中 ， 用 0 和 1 表示 是 否 拥有 该 特征 。 


Spark 读 入 LIBSVM 数 据 后 ， 以 LabeledPoint 变 量 形式 存储 在 RDD 中 : 


import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib.regression.LabeledPoint 
// 创建 一 个 带 有 正 标签 和 稠密 特征 向 量 的 LabledPoint 
val pos = LabeledPoint (1.0, Vectors.dense(1.0, 0.0, 3.0)) 
// 创建 一 个 带 有 负 标 号 和 稀疏 特征 向 量 的 LableqPojint 
val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))) 
import org.apache.spark.mllib.util.MLUtils 

// 加 载 和 解析 数据 文件 ， 并 缓存 数据 

val data = MLUtils.loadLibSVMFile (sc, "data/mllib/sample libsvm data.txt").cache() 


13.3 ”MLlib 中 LR 模型 源码 介绍 


Spark 的 MLlib 中 的 逻辑 回归 源码 主要 包含 三 个 部 分 : 

1) classfication: 逻辑 回归 分 类 器 ; 

2) optimization: 优化 方法 ， 包 含 随机 梯度 、LBFGS 两 种 算法 ; 
3) evaluation: 算法 效果 评估 计算 。 

本 章 将 以 Spark 1.0.0 版 本 MLlib 算 法 为 准 进行 介绍 。 


LR 源码 结构 如 图 13-2 所 示 。 


v Bclassification 

iij ClassificationModel.scala 
LogisticRegression.scala 
Ñ NaiveBayes.scala 
SVM.scala 

P (zx clustering 


" 
"m a iras rf rr 


13.3.4. ”逻辑 回归 分 类 器 


—— 
P (binary 

N AreaUnderCurve.scala 

BinaryClassificationMetric 

P & linalg 

v (optimization 

Wh Gradient.scala 

iù GradientDescent.scala 

ih LBFGS.scala 

ih Optimizer.scala 

y) Updater.scala 

b (yrdd 

b (xrecommendation 

P (regression 

b (stat 

P (tree 

P (util 


图 13-2 ”LR 源码 结构 


Spark 的 MLlib 机 器 学 习 库 中 的 LR 模型 ， 主 要 使 用 了 下 面 三 个 类 对 训练 数据 进行 分 类 ， 并 训练 得 到 LR 模型 。 


1.LogisticRegressionModel 类 


(1) 根据 训练 数据 集 得 到 的 weights 预 测 新 数据 点 的 分 类 


class LogisticRegressionModel private[mllib] ( 
override val weights: Vector, 
override val intercept: Double) 
extends GeneralizedLinearModel(weights, intercept) with ClassificationModel with Serializable { 


private var threshold: Option[Double] = Some(0.5) 


(2) 预测 新 数据 分 类 


l 
wX +a 


逻辑 回归 模型 采用 1 + 。 ” ”公式 进行 预测 。 


其 中 ，w 为 权重 向 量 weightMatrix; X 表 示 预 测 数 据 dataMatrix; a 表 示 intercept，intercept 默 认为 0.0。 
threshold 变 量 用 来 控制 分 类 的 阐 值 ， 默 认为 0.5。 如 果 预 测 值 小 于 threshold， 则 分 类 为 0.0， 否 则 为 1.0。 


如 果 threshold 设 置 为 空 ， 将 会 输出 实际 值 。 


override protected def predictPoint(dataMatrix: Vector, weightMatrix: Vector, 
intercept: Double) = ( 
val margin = weightMatrix.toBreeze.dot(dataMatrix.toBreeze) + intercept 
val score = 1.0/ (1.0 + math.exp(-margin)) 
threshold match 1 
case Some(t) => if (score < t) 0.0 else 1.0 
case None -» score 
} 
] 
i 


2.LogisticRegressionWithSGD 类 
此 类 主要 接收 外 部 数据 集 、 算 法 参数 等 输入 ， 采 用 梯度 下 降 (SGD) 的 方法 ， 训 练 得 到 一 个 逻辑 回归 模型 。 
接收 的 输入 参数 包括 : 
Input: 输入 数据 集合 ， 分 类 标签 lable 为 1.0 或 0.0，feature 为 Double 类 型 ; 
: numlterations: 迭代 次 数 ， 上 默认 为 100，; 
“stepSize: 迭代 步伐 大 小 ， 默 认为 1.0，) 
miniBatchFraction: 每 次 迭代 参与 计算 的 样本 比例 ， 默 认为 1.0; 
: initialWeights: weight 向 量 初始 值 ， 默 认为 0 向 量 ; 
: regParam: tegularization 正 则 化 控制 参数 ， 默 认为 0.0。 
在 LogisticRegressionWithSGD 中 使 用 了 GradientDescent (梯度 下 降 ) 优化 weight 参 数 。 更 新 的 Spark 版 本 中 ， 还 提供 了 L-BFGS 等 训练 方法 。 
class LogisticRegressionWithSGD private ( 
private var stepSize: Double, 
private var numIterations: Int, 
private var regParam: Double, 


private var miniBatchFraction: Double) 
extends GeneralizedLinearAlgorithm[LogisticRegressionModel] with Serializable { 


private val gradient = new LogisticGradient() 
private val updater - new SimpleUpdater() 
override val optimizer - new GradientDescent(gradient, updater) 
.setStepSize(stepSize) 
.setNumIterations(numIterations) 
.setRegParam( regParam) 
.setMiniBatchFraction(miniBatchFraction) 
override protected val validators - List(DataValidators.binaryLabelValidator) 


3.GeneralizedLinearModel3s 


LogisticRegressionWithSGD 中 的 run 方 法 会 调用 GeneralizedLinearModel 中 的 run 方 法 来 训练 训练 数据 。 


在 run 方 法 中 最 关键 的 就 是 optimize 方 法 ， 正 是 通过 它 来 求 得 weightMatrix 的 最 优 解 。 


def run(input: RDD[LabeledPoint], initialWeights: Vector): M = { 


// Check the data properties before running the optimizer 
if (validateData && !validators.forall(func => func(input))) { 
throw new SparkException("Input validation failed.") 


) 


// Prepend an extra variable consisting of all 1.0's for the intercept. 
val data = if (addIntercept) 1 

input.map(labeledPoint => (labeledPoint.label, prependOne(labeledPoint.features))) 
) else { 

input.map(labeledPoint -» (labeledPoint.label, labeledPoint.features)) 


val initialWweightsWithIntercept = if (addIntercept) { 
prependOne(initialWeights) 

) else ( 
initialWeights 


val intercept - if (addIntercept) weightsWithIntercept(0) else 0.0 
val weights - 
if (addIntercept) 1 
Vectors.dense(weightsWithIntercept.toArray.slice(1, weightsWithIntercept.size)) 
) else { 
weightsWithIntercept 
} 


createModel (weights, intercept) 


} 
} 


1332 优化 方法 


Spark MLIib 中 ， 逻 辑 回 归 采 用 梯度 下 降 (SGD) 算法 和 割 线 拟 牛 顿 (L-BFGS) 算法 寻找 weight 的 最 优 解 。 下 面 主 要 介绍 源码 中 的 梯度 下 降 方法 。 


逻辑 回归 方程 的 代价 函数 : 


K0) =- 一 | Y y? logh (x? ) + (1 - y? )log(1 - h(x” )) | 


其 中 : 


Wi S Tp e 


XjJ (0) 求 导数 后 得 到 梯度 为 : 


h i ( i) ( i) 
9 A md X 
源码 中 主要 通过 下 面 三 个 类 对 权 值 进行 更 新 优化 。 


1.GradientDescent 类 


GradientDescent 类 负责 梯度 下 降 算法 的 执行 ， 分 为 梯度 计算 与 权 值 更 新 (weight update) 两 个 步骤 来 计算 。 


for (i <- 1 to numIterations) { 
// Sample a subset (fraction miniBatchFraction) of the total data 
// compute and sum up the subgradients on this subset (this is one map-reduce) 
val (gradientSum, lossSum) = data.sample(false, miniBatchFraction, 42 + i) 
.aggregate ( (BDV. ET ainiai gs, size), 0.0))( 


seqo0p = ( ! ( case ((grad, loss), (label, features)) => 
val l inge te fen? es, label, weights, Vectors.fromBreeze(grad)) 
(grad, 


), 
combOp = (cl, c2) => (c1, c2) match ( case ((gradl, loss1), (grad2, loss2)) => 


(gradl += grad2, lossl + loss2) 
}) 


/** 
* NOTE(Xinghao): lossSum is computed using the weights from the previous iteration 
* and regVal is the regularizbtion value computed in the previous iteration as well. 
" 
stochasticLossHisie z 
val update < updater. EU 
weights, VectóTs- »recze(gradientSum / miniBatchSize), stepSize, i, regParam) 
weights - update. 1 
regVal - update. 2 


ossSum / miniBatchSize + regVal) 


2.Gradient 类 


Gradient 类 负责 算法 的 梯度 计算 ， 包含 LogisticGradient、LeastSquaresGradient、HingeGradient 三 种 梯度 计算 实现 ， 这 里 主要 介绍 LogisticGradient 的 实现 ，。 


class LogisticGradient extends Gradient { 
override def compute(data: Vector, label: Double, weights: Vector): (Vector, Double) = ( 
val brzData - data.toBreeze 
val brzWweights = weights.toBreeze 
val margin: Double = -1.0 * brzWeights.dot(brzData) 
val gradientMultiplier = (1.0 / (1.0 + math.exp(margin))) - label 
val gradient - brzData * gradientMultiplier 
val loss - 
if (label > 0) ( 
math.log(1 + math.exp(margin)) 
) else { 
math.log(1 + math.exp(margin)) - margin 


(Vectors.fromBreeze(gradient), loss) 


} 
其 中 ，data 为 上 面 公式 中 的 x，label 为 公式 中 的 y，weights 为 公式 中 的 6，gradient 就 是 对 j (0) 求 导 的 计算 结果 ，loss 为 ) (6) 的 计算 结果 。 
3.Updater 类 
Updater 类 负责 weight 的 迭代 更 新 计算 ， 包含 SimpleUpdater、L1Updater、SquaredL2Updater 三 种 更 新 策略 。 
(1) SimpleUpdater 


没有 使 用 regularization，weights 更 新 规则 如 下 : 
. l . step Size À 
weights := weights- 一 < gradient 
iter 


其 中 ，iter 表 示 这 是 执行 的 第 几 次 运 代 : 


class SimpleUpdater extends Updater { 
override def compute( 

weightsOld: Vector, 
gradient: Vector, 
stepSize: Double, 
iter: Int, 
regParam: Double): (Vector, Double) = ( 

val thisIterStepSize = stepSlize / math.sqrt(iter) 

val brzWweights: BV[Double] = weightsOld.toBreeze.toDenseVector 

brzAxpy(-thisIterStepSize, gradient.toBreeze, brzWeights) 


(Vectors.fromBreeze(brzWeights), 9) 
} 
} 


(2) L1Updater 


使 用 L1regularization (R (w) =||w||) ， 利 用 soft-thresholding 方 法 求解 ，weight 更 新 规则 如 下 : 


steps ize 
shrinkageVal-regParam* Soe 
NV iter 
weights := signum | weight— Steps ze gradien) *max | 0,0,abs | weight- Step e gradient "shrinkage fal 
iter iter 


signum 是 符号 函数 ， 它 的 取 值 如 下 : 


y mu ] 
signum(x) = /x = 0 
x<0 -1 


class LlUpdater extends Updater { 
override def compute( 
weightsOld: Vector, 
gradient: Vector, 
stepSize: Double, 
iter: Int, 
regParam: Double): (Vector, Double) = { 
val thisIterStepSize - stepSize / math.sqrt(iter) 
// Take gradient step 
val brzWweiBhts: BV[Double] = weightsOld.toBreeze.toDenseVector 
brzAxpy(-thisIterStepSize, gradient.toBreeze, brzWeights) 
// Apply proximal operator (soft thresholding) 
val shrinkageVal - regParam * thisIterStepSize 
var i- 0 
while (i < brzWeights.length) { 
val wi = brzWeights(i) 
brzWweights(i) = signum(wi) * max(9.0, abs(wi) - shrinkageVal) 
i += 1 


} 


(Vectors.fromBreeze(brzWeights), brzNorm(brzWeights, 1.0) * regParam) 
} 


(3) SquaredL2Updater 


使 用 L2regularization (R (w) -1/2lw||^2) ，weight 更 新 规则 如 下 : 


weights := weights— stepo ize *(eradient--regParam *weight) 
N iter 


MLlib 中 的 逻辑 回归 算法 默认 使 用 SimpleUpdater。 
13.3.3 ”算法 效果 评估 
在 使 用 训练 数据 得 到 LR 模型 后 ， 需 要 使 用 测试 数据 对 LR 模型 进行 评估 ， 以 获知 模型 的 好 坏 。Spark MLlib 中 提供 了 多 种 算法 效果 评估 方法 ， 这 些 方 法 主要 包含 在 BinaryClassificationMetrics 类 中 。 


TP、FP、FN、TN 的 定义 如 表 13-1 所 示 。 


表 13-1 状态 TP、FP、FN、TN 定 义 表 


不 相关 
检索 到 true positives(tp) false positives(fp) 
未 检索 到 | false negatives(fn) true negatives(tn) 


下 面 介绍 三 种 评价 方法 : 


(1) ROC (Receiver Operating Characteristic， 接 收 者 操作 特征 ) 


TP 
TP+ FN 


FP 
FP + TN 


TruePositiveRate( TPR) = 


FalsePositiveRate( FPR) = 


调整 分 类 器 threshold 取 值 ， 以 FPR 为 横 坐 标 ，TPR 为 纵 坐 标 做 ROC 曲 线 。 


Area Under roc Curve (AUC) : 处 于 ROC curve 下 方 那 部 分 面积 的 大 小 。 通 常 ，AUC 的 值 介 于 0.5~1.0， 较 大 的 AUC 代 表 了 较 好 的 性 能 。 


R C-term3.0 
TAP-ProteaSMM-1 
ProteaSMM-1 


True positive rate 


0 0.2 0.4 0.6 0.8 | 
False positive rate 


(2) precision-recall (准确 率 -召回 率 ) 


上 
TP + FP 


TP 
TP+FN 


准确 率 和 召回 率 是 互相 影响 的 ， 理 想 情 况 下 肯定 是 做 到 两 者 都 高 。 但 是 一 般 情况 下 ， 准 确 率 高 ， 召 回 率 就 低 ; 召回 率 低 ， 准 确 率 就 高 。 


precision = 


recall = 


(3) F-measure 


recision * recall 
F,-(1*48)- P 


(f£ * precision) + recall 


在 precision 与 recall 都 要 求 高 的 情况 下 ， 可 用 Fp 来 衡量 。 


13.4 ”实现 案例 


通过 13.3 节 对 Spark MLlib 中 关于 逻辑 回归 的 源码 介绍 ， 本 节 将 介绍 如 何 使 用 Spark 机 器 学 习 库 中 的 方法 来 训练 模型 。 


13.4.1 Jil 


下 面 是 一 个 使 用 LBFGS 优 化 方法 的 训练 案例 ， 并 求 出 评价 指标 ， 保 存 模型 


import org.apache.spark. SparkContext 
import org.apache.spark. ib.classification.í(LogisticRegressionWithLBFGS, LogisticRegressionModel] 
import org.apache.spark.mllib.evaluation.MulticlassMetrics 
import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.util.MLUtils 
// 加 载 LIBSVM 格 式 的 训练 数据 
val data = MLUtils.loadLibSVMFile (sc, "data/mllib/sample libsvm data.txt") 
// Split data into training (60%) and test (40%). 
val splits = = data.randomSplit(Array(0.6, 0.4), seed = 111) 
val training = splits (0).cache() 
val test = splits (1) 
// 运行 训练 算法 ， 建 立 模型 
val model = new LogisticRegressionWithLBFGS () 
.setNumClasses (10) 
.run (training) 
// 在 测试 集 上 计算 模型 效果 
val predictionAndLabels = test.map { case LabeledPoint(label, features) -» 
val prediction = model.predict (features) 
(prediction, label) 
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} 

// 获得 评价 指标 

val metrics = new MulticlassMetrics (predictionAndLabels) 

val precision = metrics.precision 

println("Precision = " + precision) 

// 保存 训练 模型 

model .save (sc, "myModelPath") 

val sameModel = LogisticRegressionModel.load(sc, "myModelPath") 


13.4.2 计算 AUC 


AUC 是 一 种 用 来 度量 分 类 模型 好 坏 的 一 个 标准 。 


下 面 给 出 一 个 使 用 SGD 优 化 方法 的 训练 案例 ， 并 计算 出 AUC 值 ， 保 存 模型 


import org.apache.spark.mllib.classification.(SVMModel, SVMWithSGD] 
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics 
import org.apache.spark.mllib.util.MLUtils 
// 加 载 LIBSVM 格 式 数据 
val data = MLUtils.loadLibSVMFile (sc, "data/mllib/sample libsvm data.txt") 
// 将 数据 随机 分 成 训练 数据 和 测试 数据 

val splits = data.randomSplit (Array (0.6,0.4), seed =111) 

val training = splits (0) .cache () 

val test = splits (1) 

// 运行 训练 算法 ， 并 创建 模型 

val numIterations -100 

val model = SVMWithSGD.train(training, numIterations) 

// 清除 threshold 默 认 值 

model .clearThreshold() 

// 在 测试 集 上 计算 模型 效果 

val scoreAndLabels = test.map { point => 

val score = model.predict (point.features) 

(score, point.label) 


} 

// 获得 评价 指标 

val metrics = new BinaryClassificationMetrics (scoreAndLabels) 
val auROC = metrics.areaUnderRCC () 

println("Area under ROC = " + auROC) 

// 保存 模型 

model.save (sc, "myModelPath") 

val sameModel = SVMModel.load (sc, "myModelPath") 


13.5 ”本章 小 结 


本 章 主要 介绍 了 Spark 和 逻辑 回归 模型 的 作用 、MLlib 机 器 学 习 库 中 的 LR 源码 结构 ， 通 过 两 个 demo， 介绍 了 如 何 使 用 Spark 机 器 学 习 库 中 的 LR 模型 对 数据 进行 模型 训练 和 效果 评估 。Spark 在 内 存 迁 代 
计算 方面 的 优势 ， 大 大 提高 了 LR 模型 训练 时 的 迭代 效率 ， 才 能 够 实现 大 数据 的 模型 训练 。 


第 14 章 ”获取 二 级 邻居 天 系 图 


君子 之 交 淡 若 水 ， 小 人 之 交 甘 若 醒 。 
一 一 《庄子 山 木 》 
君子 之 间 的 交情 ， 淡 薄 如 水 ， 而 小 人 之 间 的 交情 ， 看 上 去 甘甜 如 酒 。 我 们 都 希望 和 君子 相处 ， 远 离 小 人 。 俗 话说 : 物 以 类 聚 ， 人 以 群 分 ， 找 到 一 个 君子 ， 然 后 寻找 君子 的 朋友 。 


对 于 大 部 分 社交 关系 来 说 ， 只 获得 好 友 的 信息 是 远 远 不 够 的 ， 只 有 获得 好 友 的 好 友 的 信息 进行 推荐 ， 才 能 更 好 地 扩展 用 户 的 朋友 圈 。 例 如 ， 秘 密 App 中 ， 好 友 的 好 友 的 秘密 ， 传 播 的 范围 更 广 ， 信 息 量 
更 丰富 


Spark GraphX 模 型 应 用 于 用 户 网 络 的 社区 发 现 、 用 户 影响 力 、 能 量 传递 、 标 签 传播 等 ， 可 以 提升 用 户 的 黏 性 和 活跃 度 ; 而 应 用 到 推荐 领域 的 标签 推理 、 人 群 划分 、 年 龄 段 预测 、 商 品 交易 时 序 跳 转 ， 则 
可 以 提升 推荐 的 丰富 度 和 准确 性 。 本 章 重点 讲解 GraphX 的 PageRank 算 法 ， 并 基于 PageRank 算 法 实现 用 户 的 好 友 的 好 友 的 推荐 。 二 跳 邻居 的 计算 GraphX 没 有 给 出 现成 的 接口 ， 需 要 自己 设计 和 开发 。 


14.1 理解 PageRank 


14.1.1 初步 理解 PageRank 


Google 提 出 的 PageRank 算 法 基于 两 个 重要 的 假设 : 第 一 ， 被 更 多 的 链接 指向 的 页 面具 有 更 高 的 重要 性 /权威 性 ， 即 更 高 的 Rank 值 。 第 二 ， 某 个 页 面 的 Rank 值 会 通过 它 的 出 链 传 播 给 指向 的 页 面 。 例 


， 一 篇 论文 被 越 多 的 人 引用 GRIS) ， 那 么 这 篇 论文 很 可 能 就 是 一 个 领域 中 的 经 典 之 作 。 如 果 一 篇 经 典 的 论文 引用 了 其 他 的 论文 ， 那 么 一 定 程 度 上 被 引用 的 论文 企 人 们 心目 中 的 印象 会 有 一 定 的 提升 。 


基于 这 两 个 假设 ，PageRank 算 法 认为 : 某 个 页 面 新 的 Rank 值 由 当前 所 有 页 面 的 Rank 值 除 以 对 应 的 出 链 个 数 再 相 加 得 到 ， 即 : 


Rank， 
ank. = 
Ran i( new) = 2 OutLink, 


图 14-1 可 以 更 清晰 地 表现 出 PageRank 的 计算 思想 : 


rank l/outLinkl 


rank 2/outLmk2 i 
1 ^ 

outL1ink2 rank i= 

rank l/outLimkl 4 

rank 2/outLmk24 

rank 3/outLimk34 


rank 4/outLink4 


rank 3/outLink3 


outLink3 


outLink4 


图 14-1 PageRank 计 算 示 意图 


图 中 所 有 页 面 将 自己 的 Rank 值 的 一 部 分 传递 给 某 个 页 面 ， 以 生成 该 页 面 的 新 的 Rank 值 。 当 然 ， 页 面 的 Rank 值 不 可 能 通过 一 次 计算 就 可 以 完成 。 实 际 做 法 是 : 赋 给 每 个 页 面 一 个 初始 的 Rank 值 (一般 为 
1.0) ， 然 后 不 断 地 更 新 所 有 页 面 的 Rank 值 ， 直 到 : 第 一 ， 新 的 所 有 页 面 的 Rank 值 与 昌 的 所 有 页 面 的 Rank 值 之 间 的 变化 小 于 一 个 预先 设 定 的 值 。 第 二 ， 和 迭代 的 次 数 大 于 预先 设 定 的 值 。 


PageRank 算 法 的 核心 流程 如 图 14-2 所 示 。 


14.1.2 深入 理解 PageRank 


实际 中 的 PageRank 算 法 要 比 上 面 介 绍 的 模型 复杂 ， 要 理解 可 以 应 用 于 实际 的 PageRank 模 型 ， 必 须 借助 矩阵 这 个 工具 。 对 于 图 14-3 中 的 Web 结 构 : 


TIRE f$ 72 TÉ 


是 否 满足 N 
”结束 条 件 才 


否 


更 新 每 个 页 面 的 Rank | 


图 14-3 Web 结构 


可 以 生成 下 面 的 转移 矩 阵 M : 


O 172 
1/3 0 
1/3 1/2 
1/3 


这 个 矩阵 的 生成 原理 很 简单 : Titrit—^BPageiRIBPagejféHe, MME, EHÉDS: 


M = 


= IE C XE 
^x 
N 


l 
Page, 的 出 链接 个 数 


举例 来 说 : A 指向 B、C、D 的 3 个 出 链接 ， 所 以 在 例子 中 M 的 第 一 列 为 [0; 1/3; 1/3; 1/3]. 


损 一 种 角度 ， 如 果 知 道 邻 接 和 矩阵 的 概念 ， 就 可 以 看 出 : 转移 矩阵 M 其 实 就 是 所 有 页 面 的 邻接 矩阵 的 每 一 列 分 别 除 以 对 应 页 面 的 出 链接 数 得 来 的 。 


C | 


VLA 


有 了 转移 矩阵 ， 就 可 以 定义 向 量 r。[r 的 第 i 个 分 量 记 录 Pagei 对 应 的 Rank 值 。 因 此 ， 一 次 Rank 的 更 新 可 以 表示 为 : 
r=Mr 
是 不 是 只 要 给 r 一 个 初 值 ， 然 后 一 直 运 行 这 个 矩阵 迭代 运算 就 可 以 算出 页 面 的 Rank 值 呢 ? 实际 情况 并 非 如 此 简单 。 主 要 有 如 下 两 大 阻力 : Dead End 和 Spider Trap. 


简单 地 说 ，Dead End 就 是 只 有 入 链 没有 出 链 的 页 面 ， 即 M 中 某 一 列 全 为 零 ， 这 样 的 M 会 导致 迭代 的 结果 收敛 到 全 部 为 零 。 而 Spider Trap 是 指 页 面 的 所 有 出 链 都 指向 它 自己 ， 这 样 会 使 迭代 结果 中 只 有 
该 页 面 的 Rank 值 很 高 ， 其 他 页 面 的 Rank 值 全 部 为 零 。 形 象 地 说 ，Dead End 就 像 一 个 “ 洞 ”， 所 有 的 Rank 值 都 从 这 一 点 流出 ， 最 后 导致 其 他 页 面 都 没有 Rank 值 。 而 Spider Trap 就 像 一 个 “袋子 ”， 它 搜刮 
了 其 他 页 面 的 Rank 值 却 不 对 外 贡献 Rank 值 ， 所 以 导致 最 后 只 有 它 自己 的 Rank 值 很 高 ， 而 其 他 页 面 的 Rank 值 为 零 。 


要 克服 这 两 个 问题 ， 其 实 只 要 把 迭代 表达 式 做 一 点 小 小 的 改变 。 这 个 改变 就 是 加 入 一 个 “随机 跳 转 ”机 制 。 随 机 跳 转 就 是 假设 每 个 页 面 都 有 一 个 极 小 的 概率 莫名 其 妙 地 拥有 一 个 指向 其 他 页 面 的 链接 。 
表现 出 来 就 是 : 其 他 页 面 本 来 要 传递 过 来 的 Rank 值 (由 Mr 算出 ) 要 打 一 个 小 小 的 折扣 。 但 是 作为 补偿 ， 可 能 会 有 某 一 个 页 面 莫名 其 妙 地 指向 假设 页 面 并 且 传递 Rank 值 。 设 跳 转 的 概率 为 BP， 那 么 迭代 表达 


式 就 变 为 : 
r= (1-B) Mr+Be/N 


其 中 ，N 为 页 面 个 数 ; e 为 一 个 N 维 是 各 个 分 量 都 为 1 的 向 量 。 


14.2 ”PageRank 算 法 基于 Spark 的 实现 


从 进 代 表达 式 就 可 以 看 出 人 迭代 运算 的 核心 就 是 转移 矩阵 M 与 Rank 值 向 量 r 之 间 的 乘法 运算 。 
因为 : 

M- [m,moms: my] 

t= [ritots ty] 

所 以 : 


Mr=f1m1+f2m2+f3m3t+ +fNMN 


由 此 我 们 不 禁 想 到 ， 可 以 将 M 的 第 i 列 和 [的 第 i 分 量 捆绑 在 一 起 形成 一 个 “ 包 ”， 然 后 把 这 些 包 Map 给 各 个 分 布 计 算 节点 计算 它们 数 乘 的 结果 ， 然 后 再 Reduce 成 更 新 后 的 Rank 值 向 量 ， 如 图 14-4 所 示 。 
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图 14-4 ”PageRank 执 行 过 程 
接 下 来 ， 我 们 来 逐 行 分 析 SparkPageRank.scala 中 关键 代码 是 怎样 计算 的 。 
输入 的 格式 如 下 : 


/** 
* Computes the PageRank of URLs from an input file. Input file should 
* be in format of: 

* URL neighbor URL 

* URL neighbor URL 

* URL neighbor URL 

* h 

*w 


ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
here URL and their neighbors are separated by space(s). 


*/ 
输入 的 每 一 行 是 一 个 页 面 的 URL 和 某 个 它 所 指向 页 的 URL， 两 个 url 之 间 用 一 个 或 多 个 空格 隔 开 。 


val links = lines.mapí( s => 
val parts = s.split("Ns-t") 
(parts (0), parts (1)) 

).distinct ().groupByKey () . cache () 


该 行 代码 把 输入 转换 成 了 如 下 的 格式 : 


{Key=URL, Value= (neighborURL1, ，nheighborURL2……: ) } 
var ranks = links.mapValues (v => 1.0) 


该 行 代码 的 作用 是 给 所 有 页 面 的 Rank 赋 予 初 值 1。 实 际 上 就 是 创建 了 一 个 元 素 结构 为 : 


{Key=URL, Value=1.0} 


的 键 值 对 集合 。 


for (i <- 1 to iters) { 
val contribs = links.join(ranks).values.flatMapí( case (urls, rank) => 
val size = urls.size 
urls.map(url => (url, rank / size)) 
} 
ranks = contribs.reduceByKey( + ).mapValues(0.15 + 0.85 * ) 
} 


这 段 代 码 是 PageRank 的 核心 。 
links.join (ranks) 返回 了 一 个 如 下 的 键 值 对 : 
{Key=URL, Value=[ (neighbor URL1, neighbor URL2…) , rankOfURI]) 
实际 上 是 合并 了 两 个 键 值 对 集合 的 Value 值 。 最 后 获得 的 是 由 合并 后 键 值 的 值 组 成 的 集合 ， 即 由 : 
{ CneighborURL1，neighborURL2…) , rankOfURL) 
组 成 的 集合 。 
flatMap 函 数 对 于 每 一 个 对 返回 的 是 一 个 键 值 对 的 集合 ， 每 个 键 值 对 为 : 
(Key-neighborURLi, Value=rankOfURL/size} 


对 该 集合 进行 reducedByKey () 操作 ， 得 到 的 就 是 各 个 URL 新 的 Rank 值 ， 但 是 这 个 Rank 值 是 没有 引入 “随机 跳 转 ”的 Rank 值 ， 最 后 的 mapValues 函 数 就 是 将 每 个 URL 对 应 的 Rank 值 转换 为 引入 “ 随 
机 跳 转 ”后 的 Rank 值 。 


如 果 仍 然 觉得 上 面 的 叙述 很 难 理解 ， 那 么 请 看 下 面 这 个 终极 的 例子 : 
假设 输入 为 : 

AB 

AC 

AD 

BE 

BD 

CA 

CD 

DC 

DF 

EB 

EC 

首先 经 过 .distinct () (Æ) , .groupByKey () 之 后 数据 为 : 
{A, [B, C, D) 

(B, [C, D]} 

(C, [A, D] 

(D, [C, ED 

(E, [B, CD 

Key 为 URL，Value 为 该 URL 指 向 的 URL。 

接 下 来 .mapvalues (v=>1.0) 创建 了 如 下 的 一 个 键 值 对 集合 : 
(A, 1.0) 

(B, 1.0) 

(C, 1.0} 

(D, 1.0} 

(E, 1.0} 

即 初始 化 每 个 页 面 的 rank 值 ， 后 面 rank 值 用 r 代 替 。 

Join 函 数 按 key 合 并 了 上 面 两 个 集合 ，join 后 结果 为 : 

{A, [ (B, C, D) , rAJ 


(B, [ (C, D) , rBJ} 


(C, [ (A, D) , rCJ 

(D, [ (C, E) , rDJ 

(E[ (B, C) , rED 

values () 函数 获得 了 上 面 键 值 对 集合 中 所 有 的 值 组 成 的 集合 : 


[ (B, C, D) , rA] 


[ (C, D) , rB] 
[ (A, D) , rC] 
[ (C, E) , rD] 
[ (B, C) , rE] 


下 面 是 重头 戏 ，flatMap 将 每 一 个 对 map 成 一 个 键 值 对 的 集合 : 
例如 ，[ (B, C, D) ，rA] 被 map 成 {B，rA/3}、{C，rA/3}、{D，rA/3}。 于 是 该 步 得 到 的 结果 是 : 
{B, rA/3} 

{C, rA/3} 

(D, rA/3) 

(C, rB/2) 

(b, rB/2) 

(A, rC/2) 

(D, rC/2) 

(C, rD/2) 

(E, rD/2) 

(B, rE/2) 

(C, rE/2) 

下 面 也 是 重头 戏 ，reduceBy 是 按键 用 加 法 合并 结果 : 

(A, rC/2) 

(B, rA/3*rE/2) 

(C, rA/3*rB/2*rD/2) 

(D, rA/3*rB/2*rC/2) 

(E, rD/2) 

到 目前 为 止 ， 已 经 完成 了 一 次 矩阵 乘法 M*r 所 需 的 运算 (是 所 需 的 运算 而 不 是 全 部 的 运算 ， 应 为 矩阵 中 所 有 的 0 都 没有 参与 ) 。 最 后 一 步 ， 加 入 随机 跳 转 的 影响 ， 这 一 步 是 由 mapValues 实 现 的 : 
{A, 0.85*rC/2+0.15} 

{B, 0.85* (rA/3+rE/2) +0.15} 

{C, 0.85* (rA/3+rB/2+rD/2) +0.15} 

{D, 0.85* (rA/3+rB/2+rC/2) +0.15} 


{E, 0.85*rD/2+0.15} 


(A, r Aj 
(B, r B) 
(C, r C 
ib, r D} 
(E, r E) 


这 里 的 上 已 经 是 各 个 页 面 新 的 Rank 值 。 


14.3 ”基于 PageRank 的 二 级 邻居 获取 


本 例 用 于 简单 地 实现 用 户 的 好 友 的 好 友 的 推荐 。 


对 于 大 部 分 社交 关系 来 说 ， 只 获得 好 友 的 信息 是 远 远 不 够 的 ， 只 有 获得 好 友 的 好 友 的 信息 进行 推荐 ， 才 能 更 好 地 扩展 用 户 的 朋友 圈 。 例 如 ， 秘 密 App 中 ， 好 友 的 好 友 的 秘密 ， 传 播 的 范围 更 广 ， 信 息 量 
更 丰富 。 二 跳 邻 居 的 计算 GraphX 没 有 给 出 现成 的 接口 ， 需 要 自己 设计 和 开发 ， 目 前 使 用 的 方法 是 : 


第 一 次 遍历 ， 获 取 好 友 的 id; 
第 二 次 遍历 ， 获 取 好 友 的 好 友 的 id。 
最 终 获取 好 友 的 好 友 的 id 的 pageRank 进 行 评分 ， 从 而 选择 好 友 进 行 推荐 。 
值得 注意 的 是 ， 在 获取 好 友 的 好 友 的 id 时 有 可 能 id 是 好 友 的 id， 所 以 必须 先 筛选 掉 ， 得 到 的 才 是 二 级 邻居 的 好 友 。 
14.3.1 系统 设计 
本 系统 主要 实现 社交 中 为 用 户 推荐 好 友 的 功能 ， 主 要 为 用 户 推荐 好 友 的 好 友 的 功能 ， 且 实现 推荐 用 户 在 整个 社交 网 络 中 的 关系 比较 重要 ， 这 样 才能 更 好 地 维持 社交 网 络 的 稳定 性 。 
设计 流程 如 下 : 


通过 社交 网 络 的 关注 关系 ,来 构建 相应 的 社交 网 络 关系 图 ， 根 据 用 户 的 id 找 到 用 户 的 好 友 的 id， 表 根据 好 友 的 id 找 到 好 友 的 好 友 的 id， 在 ids 中 可 能 会 存在 好 友 的 id， 即 你 的 好 友 们 相互 可 能 也 是 好 友 。 
根据 用 户 的 好 友 的 好 友 的 id 简化 社交 网 络 的 大 小 从 而 减少 使 用 PageRank 的 计算 量 ， 计 算出 各 好 友 的 权重 ， 就 可 以 根据 好 友 的 权重 来 推荐 好 友 。 


14.3.2 ”系统 实现 

首先 获取 二 级 邻居 对 象 ， 然 后 根据 获取 的 二 级 邻居 ， 获 取 好 友 的 好 友 的 id 的 PageRank 进 行 评分 。 
1. 获 取 所 有 的 二 级 邻居 

通过 以 下 代码 实现 二 级 邻居 的 获取 : 


package com.iflytek.graphx.util 
import org.apache.spark.graphx. 
import org.apache.spark.rdd.RDD 
import java.util.LinkedList 
import scala.collection.immutable.HashSet 
class GraphNeighborUtil { 

大 大 


* 根据 id 得 到 其 好 友 的 id 
* @param id 
* (param graph 
* Qreturn 
NT 
def getfirstNeighborIds (id: Long, graph: Graph[Int, Int]): HashSet[Long] = { 
val firstNeighbor: VertexRDD[Int] = graph.aggregateMessages [Int]( 
triplet => ( 
if (triplet.srcId == id) { 
triplet.sendToDst (1) 
} 


(a, b) => b + 1) 
var firstlIds = new HashSet [Long] 
irstNeighbor.collect.foreach(a => firstlIds += a. 1) 
firstIds 


/** 
* 通过 用 户 id 的 集合 得 到 好 友 的 id 集 合 
* (param firstIds 
* Qparam graph 
* Qreturn 
*7 
def getSecondNeighborIds (firstIds: HashSet[Long], graph: Graph[Int, Int]): HashSet[Long] = { 
var secondlds = new HashSet [Long] 
FirstIds.foreach( 
id 三 > ( 


val secondNeighbors - getfirstNeighborIds (id, graph) 
secondNeighbors.foreach(secondId => secondlds += secondId) 
)) 
val hashSetUtil = new HashSetUtil[Long] 
hashSetUtil.removeRepeate (secondIds, firstlds) 
} /** 
* 根据 用 户 id 得 到 好 友 的 好 友 的 信息 
* @param id 
* (param graph 
* (return 
*/ 
def getlIds(id:Long, graph: Graph[Int, Int]):HashSet[Long]={ 
getSecondNeighborIds (getfirstNeighborlds (id, graph), graph) 
} 


过 程 包括 根据 其 好 友 的 id， 通 过 用 户 id 的 集合 ， 得 到 用 户 好 友 的 好 友 的 信息 。 主 要 方法 如 下 : 
- getfirstNeighborIds 调 用 graph 的 ageregateMessages 方 法 收集 一 级 邻居 ; 
: getSecondNeighborlds 通 过 用 户 id 的 Set 得 到 好 友 的 id 集 合 ，; 
.get[ds 最 终 调用 获取 二 级 邻居 的 方法 。 


以 下 代码 是 获取 二 级 邻居 的 主 调用 函数 : 


package com.iflytek.graphx 
import org.apache.spark. _ 
import org.apache.spark.graphx. 
import com.iflytek.graphx.util.GraphNeighborUtil 
import com.iflytek.graphx.util.FileUtil 
object CollectNeighborIds { 
def main (args: Array[String]): Unit = ( 
if (args.length!-3)( 
println("Usage: «sourcePath»«id»«idsFile»") 
sys.exit 


K MK 


ck ct cr cl 


// 获取 参数 

val sourcePath = args.apply(0) 

val id = args.apply (1) 

] args.apply (2) 

new SparkConf ().setAppName (sourcePath) 


val sc = new SparkContext (conf 
// 构造 图 

val graph = GraphLoader.edgeListFile (sc, sourcePath) 

val graphNeighborUtil = new GraphNeighborUtil 

// 获取 二 级 邻居 的 ids 

val secondIds = graphNeighborUtil.getIds (id.toLong, graph) 
val fileUtil = new FileUtil [Long] 

fileUtil.writeHdfs (secondlds, path) 

SC.Stop 


— 


H 


以 上 ， 实 现 根据 自己 的 id 查找 二 级 邻居 的 id 的 集合 。 首 先 ， 通 过 类 GraphLoader 的 edgeListFile 方 法 构建 用 户 关系 图 graph， 调 用 类 GraphNeighboruUtil 的 getlds 方 法 获取 二 级 邻居 secondlds， 然 后 调 
用 FileUtil 工 具 类 的 方法 写 数 据 人 存储 在 HDFS 中 。 


- 


2. 获 取 评 分 高 的 二 级 邻居 


我 们 通过 以 下 代码 来 实现 获得 分 高 的 二 级 邻居 。 


package com.iflytek.graphx 

import org.apache.spark. 

import org.apache.spark.graphx. 

import scala.collection.immutable.HashSet 

import com.iflytek.graphx.util.FileUtil 

import com.iflytek.graphx.util.GraphxUtil 

object SortlIdsByPageRank extends Appí 

if (args.length != 3) ( 
println("Usage: «sourcePath»«idsPath»«dstPath»") 
sys.exit 


ct ct ct ct et rx 


// 获取 参数 
val sourcePath - args. apply (0) 
) 
) 


val idsPath = args.apply (1 
val dstPath = args.apply(2 
val Pene = new SparkConf ().setAppName (args.apply (0)) 
val sc = new SparkContext (conf) 
// 读 取 已 经 处 理 出 来 的 jds 
val fileUti] new FileUtil [Long] 

val ids= fileUtil.readhdfs (idsPath) .map (id => id.toLong) 
val graph = GraphLoader.edgelistFile(sc, sourcePath) 

val graphxUtil = new GraphxUtil 

// 取 ids 图 
val vertices = graphxUtil.getSubGraphxVertices (graph, ids) 

val edges = JgraphxUtil.getSubGraphxEdges (graph, ids) 

val subGraph = Graph (vertices, edges) 

val firstNeighbor: VertexRDD[Double] = subGraph.pageRank(0.01).vertices 
firstNeighbor.filter (pred => { 


var flag - false 
ids,foreach(id => it (id == pred. 1) flag = true) 
flag 
)).sortBy(x => x. 2, false).coalesce(1).saveAsTextFile (dstPath) 


SC.Stop 


以 上 ， 根 据 已 获取 二 级 邻居 的 jd， 然后 通过 pageRank 算 法 对 二 级 邻居 进行 评分 ， 从 而 获取 二 级 邻居 评分 的 排序 ， 最 终 为 用 户 推荐 更 好 的 用 户 信息 。 
14.3.3 ”代码 提交 命令 


打包 程序 为 graphxDemo.jar， 上 传代 码 ， 测 试 并 运行 ， 获 取 二 级 邻居 的 推荐 。 测 试 数据 为 少量 用 户 的 测试 信息 ， 从 而 验证 程序 的 正确 性 ;任务 提交 的 数据 为 从 数据 堂 (www.datatang.com) 下 载 的 
微 博 用 户 数据 ， 并 进行 ETL 处 理 ， 用 户 数据 量 为 7000 万 左右 ， 提 交 任 务 可 以 获取 实际 的 数据 结 


1. 测 试 提交 


(1) 获取 指定 id 的 二 级 邻居 


Spark-submit --master local[2] --class com.iflytek.graphx.CollectNeighborIds 
graphxDemo.jar /S$DEMOPATH/sampleedges.txt 1 /SDEMOPATH/weiboedgesResult/test/ 
ids.txt 


(2) 测试 数据 PageRank 


Spark-submit --master local[2] --class com.iflytek.graphx.NeighborPageRank 
graphxDemo.jar /S$DEMOPATH/weiboedges/sampleedges.txt /S$DEMOPATH/ 
weiboedgesResult/test/pageRank 


(3) 推荐 用 户 数据 的 ids 排 序 结果 


spark-submit --master local[2] --class com.iflytek.graphx.Neighbor graphxDemo. 
jar /SDEMOPATH/weiboedges/sampleedges.txt  /SDEMOPATH/weiboedgesResult/test/ 
ids.txt /SDEMOPATH/weiboedgesResult/test/IdspageRank 


2. 任 务 提交 


(1) 获取 指定 id 的 二 级 邻居 


spark-submit --master spark:// *.*.*.*:7077 --class com.iflytek.graphx. 
CollectNeighborIds --executor-memory 5G --num-executors 4 graphxDemo.jar 
/ SDEMOPATH/weiboedges/edges.txt 1653870571 /SDEMOPATH/weiboedgesResult/total/ 
ids.txt 


(2) 数据 PageRank 


spark-submit --master spark:// *.*.*.*:7077 --class com.iflytek.graphx. 
NeighborPageRank --executor-memory 5G --num-executors 4 graphxDemo.jar 
/ SDEMOPATH/weiboedges/edges.txt /SDEMOPATH/weiboedgesResult/total/pageRank 


(3) 推荐 用 户 ids 的 排序 结果 


spark-submit --master spark:// 192.168.86.41:7077 --class com.iflytek.graphx. 
Neighbor --executor-memory 5G --num-executors 4 graphxDemo.jar /SDEMOPATH/ 
weiboedges/edges.txt  /SDEMOPATH/weiboedgesResult/total/ids.txt /SDEMOPATH/ 


weiboedgesResult/total/IdspageRank 


144 本章 小 结 


本 章 介 绍 了 基于 GraphX 模 型 的 PageRank 算 法 ， 从 初步 理解 到 深入 理解 ， 最 后 举例 说 明基 于 PageRank 的 二 级 邻居 获取 ， 以 及 对 该 任务 的 测试 方法 ， 后 续 建议 读者 多 关注 用 大 数据 洞察 用 户 相关 内 容 ， 
构建 丰富 的 任务 关系 图 谱 。 


jn 
xl 
am 
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“ 第 16 章 ”存储 管理 
` 第 17 章 “监控 管理 


| 第 18 章 ”性 能 调 优 


第 15 草 ”调度 管理 


人 生 天 地 之 间 ， 若 和 白 驹 过 阶 ， 忽 然而 已 。 
一 一 《庄子 - 知 北 游 》 
人 生 在 天 地 之 间 ， 就 像 透 过 缝隙 看 到 白马 飞驰 而 过 ， 不 过 一 瞬间 罢了 。 人 生 知 促 ， 好 好 规划 好 自己 的 人 生 ， 清 晰 规划 目标 ， 合 理 调度 时 间 和 资源 ， 在 有 限 的 时 间 内 ， 做 出 草 越 的 事情 ， 切 勿 浪费 人 生 。 


如 何 对 Spark 调 度 进行 有 效 管理 ， 是 深入 认识 Spark 的 重点 ， 也 是 把 握 大 数据 时 代 的 关键 ， 本 章 重点 从 Spark 应 用 程序 间 的 调度 和 Spark 应 用 程序 中 的 调度 讲 起 ， 然 后 讲解 调度 器 的 核心 调度 池 ， 以 及 Job 
任务 的 调度 流程 ， 最 后 对 调度 模块 进行 了 解读 ,希望 对 读者 学 习 Spark 有 所 帮助 。 


15.1 ”调度 概述 


类 似 基于 分 布 式 MapReduce 任 务 的 调度 ，Spark 也 有 自身 的 资源 调度 方式 。Spark 的 资源 调度 包含 应 用 程序 间 和 应 用 程序 中 两 个 层面 的 调度 策略 。 


首先 ， 每 个 Spark 应 用 程序 (SparkContext 实 例 ) 运行 一 个 独立 的 执行 进程 ， 集 群 管理 器 提供 了 应 用 程序 间 的 调度 处 理 措施 。 其 次 ， 在 每 个 Spark 应 用 程序 中 ， 不 同 的 线程 提交 的 多 个 Job 作 业 (BD 
Spark Actions) 可 以 同时 运行 。 


见 的 作业 调度 的 基本 概念 
‘Job: 作业 ， 一 次 Action 生 成 的 一 个 或 多 个 Stage 组 成 的 一 次 计算 作业 。 
Stage: 调度 阶段 ， 不 需要 进行 Shuffle 的 调度 过 程 ， 一 个 任务 集 所 对 应 的 调度 阶段 
` TaskSet: 任务 集 ， 一 组 相互 关联 的 ， 且 没有 Shuffle 依 赖 关 系 的 任务 组 成 的 集合 


: Task: 任务 ， 单个 分 区 数据 集 上 的 最 小 处 理 单 元 。 


15.1.1 ”应 用 程序 间 的 调度 
每 个 运行 在 集群 上 的 Spark 应 用 程序 都 能 得 到 一 个 独立 的 ， 仅 用 于 运行 任务 和 存储 数据 的 JVM 虚 拟 机 。 
如 果 多 用 户 需 要 共享 集群 ， 可 以 通过 集群 管理 器 配置 不 同 的 选项 分 配 资 源 。 
1. 静 态 资 源 分 配 


在 集群 管理 器 中 最 简单 有 效 的 方式 就 是 静态 资源 分 配 。 使 用 此 方法 ， 每 个 应 用 程序 在 整个 生命 周期 中 都 可 以 得 到 一 个 最 大 数量 的 资源 。 这 种 方式 被 用 于 Spark 的 Standalone 和 YARN 模 式 中 (以 及 粗 粒 
度 的 Mesos 模 式 ) 。 根 据 集群 的 类 型 ， 可 以 通过 下 面 的 配置 分 配 资源 。 


- Standalone 模 式 的 资源 分 配 : Spartk 应 用 程序 按照 FIFO 的 顺序 执行 ， 每 个 应 用 程序 都 会 尝试 使 用 所 有 可 用 的 节点 ， 通 过 设置 内 核 数目 可 以 限制 Spatk 应 用 程序 的 资源 使 用 情况 。 通 过 设置 
spatk.deploy.defaultCores 配 置 通用 资源 使 用 ， 单 个 应 用 程序 特殊 资源 使 用 可 以 通过 spatk.cores.max 修 改 设置 。 除 了 控制 Core 数 之 外 ， 每 个 应 用 程序 的 spatrk.executor.memory 配 置 可 以 控制 每 个 Executot 的 内 存 使 
用 o 


“YARN 模 式 的 资源 分 配 : 在 Spatk YARN 客 户 端 配 置 应 用 程序 --num-executors 选 项 ， 控 制 在 集群 上 分 配 的 Executors 数 量 ， 使 用 --executor-memory 和 --executor-cores 控 制 每 个 Executor 的 资源 分 
- Mesos 模 式 : 在 Mesos 设 置 spatk.mesos.coatse 配 置 属性 为 true 时 ， 可 使 用 静态 分 区 资源 。 选 项 spatk.cotes.max 限 制 每 个 应 用 程序 的 共享 资源 核 数 。 选 项 spatk.executot memoty 控 制 执行 器 的 内 存 。 
2. 动 态 资 源 分 配 


根据 工作 负载 动态 分 配 集群 资源 的 能 力 ， 即 应 用 程序 资源 空 闪 时 可 以 及 时 释放 给 集群 ， 而 需要 时 可 以 及 时 请 求 获得 资源 分 配 。 在 集群 中 多 个 应 用 程序 共享 资源 时 ， 显 得 尤为 重要 。 当 分 配给 应 用 程序 资 


源 的 一 个 子 集 变 得 空 亲 时 ， 可 以 及 时 释放 给 资源 池 ， 供 需要 的 应 用 程序 获取 。 使 用 动态 资源 分 配 ， 必 须 保存 Executors 执 行 过 程 中 写 的 Shuffle 文 件 ， 使 Executors 能 够 顺利 释放 ， 应 用 程序 必须 使 用 外 部 的 


Shuffle 服 务 。 


(1) 配置 


在 Spark 的 YARN 模 式 集群 中 ， 可 以 通过 配置 spark.dynamicAllocation.enabled 为 true 启 用 该 功能 ， 并 通过 *.minExecutors 和 *.maxExecutors 提 供 Executors 数 目的 上 下 界限 。 通 过 设置 
spark.shuffle.service.enabled 为 true 启 用 外 部 Shuffle 服 务 ， 并 在 集群 所 有 的 nodemanager 上 配置 Shuffle 服 务 。 


(2) 资源 分 配 策略 


采取 动态 资源 分 配 ，spark 在 资源 空闲 时 释放 Executors， 在 需要 时 重新 获取 Executors。 由 于 没有 一 个 明确 的 方法 来 预测 一 个 将 要 被 释放 资源 的 Executor 是 否 将 要 运行 一 个 新 的 任务 ， 也 没有 办 法 来 预 
测 当前 空闲 的 任务 是 否 需要 新 增 一 个 Executor。 所 以 需要 一 组 策略 来 决定 什么 时 候 释 放 或 申请 Executors。 


@ 请 求 策略 。 


当 一 个 能 够 动态 分 配 资源 的 Spark 应 用 程序 有 任务 等 待 分 配 时 ， 能 够 请 求 额外 的 Executors， 这 种 情况 意味 着 现 有 的 Executors 不 足以 完成 所 有 已 经 提交 但 是 尚未 完成 的 任务 。Spark 通 过 轮 询 申 请 
Executors 资 源 ， 任 务 已 经 超过 *.schedulerBacklogTimeout 设 定 的 时 间 ， 并 且 再 次 触发 :sustainedSchedulerBacklogTimeout 延 时 之 后 ， 队 列 中 等 待 的 任务 依然 存在 ， 请 求 被 触发 。 每 次 轮 询 请 求 的 
Executors 数 目 比 上 一 次 轮 询 成 倍增 长 。 例 如 ， 一 个 应 用 程序 在 第 1 次 轮 询 增 加 1 个 Executor， 在 随后 的 几 轮 分 别 增 加 2 个 、4 个 、8 个 Executor 等 。 


成 倍增 加 的 动机 有 两 个 。 首 先 ， 一 个 应 用 程序 开始 时 应 该 审慎 地 申请 Executors 资 源 ， 避 免 一 次 申请 过 多 ; 其 次 ， 应 用 程序 应 该 能 够 及 时 提供 其 资源 使 用 情况 ， 避 免 Executors 的 浪费 。 
@ 删 除 策略 。 


删除 Executors 的 策略 要 简单 得 多 ， 当 该 EXxecutor 空 闲 时 间 超 过 *.executorldleTimeout 设 定 值 时 ， 一 个 Spark 应 用 程序 删除 一 个 EXxecutor。 在 大 多 数 情况 下 ， 删 除 和 请 求 互 斥 条 件 ， 如 仍 有 任务 等 待 分 
配 Executor 资 源 ， 那 么 EXxecutor 不 会 出 现 闲置 。 


@Executors 优 雅 的 退出 机 制 。 
资源 动态 分 配 之 前 ， 当 Executor 失 败 ， 或 者 Executor 相 关联 的 应 用 程序 退出 时 ， 一 个 Spark 的 Executor 会 退出 。 在 这 两 种 场景 中 ， 与 Executor 相 天 联 的 所 有 状态 都 不 再 需要 ， 可 以 安全 的 丢弃 。 


但 是 ， 当 一 个 Executor 被 显示 删除 时 ， 应 用 程序 仍然 在 运行 。 如 果 应 用 程序 试图 访问 Executor 存 储 或 写 的 状态 ， 将 不 得 不 进行 重新 计算 。 为 避免 重新 计算 ，Spark 需 要 一 种 优雅 的 解除 一 个 Executor 机 
制 ， 在 删除 之 前 保留 状态 。 


这 个 要 求 对 于 Shuffles 显 得 尤为 重要 ， 在 一 个 Shuffle 期 间 ，Spark 的 Executor 首 先 将 自己 的 Map 本 地 输出 到 磁盘 ， 当 其 他 Executors 尝 试 获取 这 些 状态 时 充当 文件 服务 器 。 对 于 那些 比较 慢 的 事件 ， 任 
务 运行 的 时 间 比 其 他 任务 较 长 ， 动 态 分 配 可 能 会 在 shuffle 完成 之 前 ， 删 除 一 个 Executor， 在 这 种 情况 下 ，Executor 写 的 Ehuffle 文 件 没 有 必要 重新 计算 。 


保留 Shuffle 文 件 的 解决 方案 是 使 用 外 部 Shuffle 服 务 ， 这 些 服 务 是 指 长 时 间 独 立 运 行 在 集群 每 个 节点 的 Spark 应 用 程序 以 及 Executors 进 程 。 如 果 启 用 了 该 服务 ，Spark 的 Executors 将 会 从 服务 中 获取 
Shuffle 文 件 以 代替 从 备份 中 获取 。 这 意味 着 任何 一 个 Executor 写 的 Shuffle 状 态 可 以 超出 Executor 的 生命 周期 继续 服务 。 


除了 写 一 个 Shuffle 文 件 ，Executors 也 可 以 缓存 数据 在 磁盘 或 者 内 存 中 。 当 一 个 Executor 被 删除 时 ， 所 含 缓存 的 数据 将 不 再 能 访问 ， 缓 存 数据 可 以 通过 一 个 堆 存 储 进 行 保存 。 


15.1.2 ”应 用 程序 中 的 调度 


在 给 定 的 Spark 应 用 (已 实例 化 SparkContext) 中 ， 如 果 在 不 同 线程 中 ， 多 个 并 行 的 Jobs 可 以 同时 运行 。 这 里 ，“Job” 是 一 个 Sparkaction (如 保存 、 收 集 等 ) 或 是 任何 需要 评估 Action 的 任务 。 
Spark 的 任务 调度 是 线程 安全 的 ， 同 时 支持 应 用 程序 使 用 Case 服 务 多 个 请 求 ( 多 用 户 查 询 ) 。 


Spark 调 度 上 默认 按照 FIFO 的 形式 运行 Jobs。 每 一 个 Job 被 划分 为 多 个 Stages， 所 有 可 用 的 资源 中 第 一 个 Job 优 先 级 最 高 ， 该 Job 的 Stages 的 任务 会 被 启动 ， 之 后 是 第 二 个 Job， 依 此 类 推 。 如 果 Job 不 需要 
使 用 全 部 集群 中 的 资源 ， 后 面 的 Job 可 以 立即 执行 。 如 果 队 列 中 排 在 前 面 的 Job 需 要 资源 很 多 ， 后 面 的 Job 可 能 被 延迟 。 


Spark 调 度 支 持 两 个 Job 之 间 以 公平 共享 (fair sharing) 的 方式 配置 公平 调度 ， 在 公平 调度 模式 下 ，Spark 在 Job 之 间 通 过 轮 询 (round robin) 方式 ， 所 有 Job 获 得 一 个 大 约 相当 的 集群 资源 。 这 意味 着 
当 一 个 长 期 Job 运 行 时 ， 短 期 Job 提 交 后 可 以 立即 获得 资源 ， 并 进行 响应 。 


启用 公平 调度 器 ， 需 要 配置 SparkContext 的 spark.scheduler.mode 属 性 为 FAIR。 


val conf = new SparkConf () .setMaster (http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...) .SetAppName (http://www.hzcourse 
conf.set("spark.scheduler.mode", "FAIR") 
val sc = new SparkContext (conf) 


Spark 的 公平 调度 器 参考 Hadoop 的 公平 调度 器 ,支持 Job 分 组 进入 调度 池 ， 可 以 给 每 个 调度 池 设 置 不 同 的 调度 参数 (如 权重 ) ， 可 以 给 重要 任务 创建 一 个 “high-priority” 调 度 池 。 同 一 分 组 内 部 按照 
用 户 均等 分 配 资源 ， 而 不 是 按照 Job 平 均 共享 资源 。 


新 提交 的 任务 可 以 通过 在 SparkContext 中 添加 spark.scheduler.pool 属 性 设置 调度 池 ， 如 果 不 进行 设置 ， 任 务 会 进入 一 个 默认 池 。 


// Assuming sc is your SparkContext variable 
Sc.setLocalProperty ("spark.scheduler.pool", "pool1") 


设置 调度 池 的 属性 之 后 ， 在 该 线程 中 ， 全 部 被 提交 的 Jobs (RDD 的 save、count、collect 等 ) 使 用 该 Pool 名 。 该 设置 使 一 个 线程 运行 同一 个 用 户 的 多 个 Jobs 变 得 容易 。 如 果 想 要 清除 一 个 线程 关联 的 
池 ， 可 以 调用 : 


Sc.setLocalProperty ("spark.scheduler.pool", null) 


2. 配 置 调度 池 属 性 


在 默认 情况 下 ， 每 个 池 获 取 同 等 份额 的 集群 资源 ， 但 是 在 每 个 地，Jobs 以 FIFO 的 方式 运行 。 例 如 ， 如 果 每 个 用 户 创建 一 个 池 ， 意 味 着 每 个 用 户 获得 一 个 均等 资源 ， 每 个 用 户 的 查询 将 顺序 运行 ， 后 提交 
的 查询 将 不 能 使 用 用 户 早期 的 资源 。 


特定 池 的 属性 还 可 以 通过 一 个 配置 文件 进行 修改 ， 每 个 池 支 持 三 个 属性 。 


.schedulingMode， 调 度 模 式 ， 支 持 FIFO 或 FAIR， 控 制 池 队 列 中 Job 的 先后 顺序 和 公平 共享 池 的 资源 。 


` weight， 权 重 ， 控 制 集群 中 的 池 相对 于 其 他 池 的 共享 。 在 默认 情况 下 ， 所 有 池 的 权重 是 1。 如 果 设置 一 个 池 的 权重 是 2， 将 是 权重 为 1 的 池 获 得 的 2 倍 。 设 置 一 个 高 权重 (181000) ， 可 以 实现 最 高 优先 
级 ， 从 本 质 上 讲 ， 权 重 1000 的 池 中 的 Job 总 是 会 优先 执行 。 


: minShare， 最 小 共享 ， 除 了 整体 权重 ， 每 个 池 可 以 获得 最 小 的 共享 资源 〈 如 一 定数 目的 CPU 核 数 ) 。 公 平 调度 器 在 根据 权重 重新 分 配 所 有 额外 资源 之 前 ， 一 直 会 尝试 满足 所 有 活动 池 的 最 小 共享 资源 。 


因此 ，minShate 属 性 能 够 确保 一 个 池 很 快 获得 一 定数 量 的 资源 〈 如 10 个 核 ) 。 上 默认 每 个 池 的 minShare 是 0。 
池 的 属性 可 以 通过 XML 文件 设置 ， 类 似 于 conf/fairscheduler.xmltemplate 文 件 ， 设 置 一 个 spark.schedulerallocation.file 属 性 在 SparkConf 文 件 中 。 


公平 调度 模式 的 配置 通过 配置 文件 管理 ， 默 认 使 用 conf/fairschedulerxm| 文 件 。 


conf.set("spark.scheduler.allocation.file", "/path/to/file") 


池 的 元 素 一 般 采 取 XML 文 件 进行 设置 ， 元 素 scheduling Alode、weight、minShale 的 简单 设置 如 下 : 


«allocations» 

«pool name-"production"» 
«schedulingMode»FAIR«/schedulingMode» 
«weight»l«/weight» 
«minShare»2«/minShare» 

«/pool» 

«pool name="test"> 
«schedulingMode»FIFO«c/schedulingMode» 
«weight»2«/weight» 
«minShare»3«/minShare» 

«/pool» 

«/allocations» 


15.2 调度 器 
DAGScheduler 负 责 构 建 具有 依赖 关系 的 任务 集 TaskSet，TaskScheduler 负 责 将 TaskSet 资 源 提 供给 TaskSetManager 供 其 作为 调度 任务 的 依据 ，TaskSetManager 负 责 在 具体 任务 集 的 内 部 调度 任 
务 。 


每 个 SparkContext 可 能 同时 存在 多 个 可 运行 的 任务 集 (没有 依赖 关系 ) ， 这 些 任务 集 之 间 的 调度 ， 是 由 调度 池 Pool 对 象 决定 的 ， 调 度 池 Pool 管 理 的 对 象 是 下 一 级 的 Pool 或 者 TaskSetManager 对 象 。 


152.1 调度 池 


TaskSchedulerlImpl 在 初始 化 过 程 中 会 根据 用 户 设 定 的 SchedulingMode (默认 为 FIFO) 创建 一 个 rootPool 根 调度 池 ， 之 后 根据 具体 的 调度 模式 再 进一步 创建 schedulableBuilder 对 象 ， 有 具体 的 
SchedulableBuilder 对 象 的 BuildPools 方 法 将 在 rootPool 的 基础 上 完成 整个 Poo| 的 构建 工作 。 


目前 实现 有 两 种 调度 模式 ， 对 应 了 两 种 类 型 的 Pool: 
- FIFO: 先进 先 出 型 ，FIFO Pool 直 接管 理 的 是 TaskSetManapgetr， 每 个 TaskSetManaget 创 建 时 都 存储 了 其 对 应 的 StageID，FIFO Pool 最 终 根 据 StageID 的 顺序 调度 TaskSet-Managet。 


| FAIR: 公平 调度 型 ，FAIR Pool 管 理 的 对 象 是 下 一 级 的 Pool， 或 者 TaskSetManager， 公 平 调 度 的 基本 原则 是 根据 所 管理 的 Pool/TaskSetManaget 中 正在 运行 的 任务 的 数量 判断 优先 级 ， 用 户 可 以 设置 
minShate 最 小 任务 数 和 weight 任 务 权重 调整 对 应 Pool 中 任务 集 的 优先 程度 。 当 采用 公平 调度 模式 时 ， 目 前 所 构建 的 调度 池 是 两 级 的 结构 ， 即 根 调度 池 管 理 一 组 子 调度 池 ， 子 调度 池 进 一 步 管 理 属 于 该 调度 池 的 


‘TaskSetManager。 


由 于 调度 池 是 在 SparkContext 内 部 的 调度 ， 因 此 其 调度 范畴 是 一 个 基于 该 SparkContext 的 Spark 应 用 程序 。 在 正常 情况 下 ， 多 个 Spark 应 用 程序 之 间 在 调度 池 层 面 是 没有 调度 优先 级 关系 的 。 


15.2.2 ”Job 调 度 流程 
提交 并 运行 一 个 Job 的 基本 流程 ， 包 括 以 下 步骤 : 
1. 划 分 Stage 
当 某 个 Action 操 作 触 发 计算 ， 向 DAGSscheduler 提 交 作 业 时 ，DAGSscheduler 需 要 从 RDD 依 赖 链 最 末端 的 RDD 出 帮 ， 遍 历 整 个 RDD 依 赖 链 ， 划 分 stage 任务 阶段 ， 并 决定 各 个 Stage 之 间 的 依赖 关系 。 


stage 的 划分 是 以 Shuffle 依 赖 为 依据 的 ， 也 就 是 说 当 某 个 RDD 的 运算 需要 将 数据 进行 Shuffle 时 ， 这 个 包含 了 shuffle 依 赖 天 系 的 RDD 将 被 用 来 作为 输入 信息 ， 构 建 一 个 新 的 Stage， 由 此 为 依据 划分 
stage， 可 以 确保 有 依赖 关系 的 数据 能 够 按照 正确 的 顺序 得 到 处 理 和 运算 。 


以 groupByKey 操 作为 例 ， 该 操作 返回 的 结果 实际 上 是 一 个 ShuffleRDD， 当 DAGscheduler 遍 历 到 这 个 ShuffleRDD 时 ， 因 为 其 依赖 是 一 个 ShuffleDependency， 于 是 这 个 ShuffleRDD 的 父 RDD 以 及 
ShuffleDependency 等 对 象 就 被 用 来 构建 一 个 新 的 Stage， 这 个 Stage 的 输出 结果 的 分 区 方式 ， 则 由 ShuffleDependency 中 的 Partitioner 对 象 决定 。 


尽管 划分 和 构建 Stage 的 依据 是 ShuffleDependency， 对 应 的 RDD 也 就 是 这 里 的 ShuffleRDD， 但 是 这 个 Stage 所 处 理 的 数据 是 从 这 个 ShuffleRDD 的 父 RDD 开 始 计算 的 ， 只 是 最 终 输出 结果 的 位 置信 息 
参考 了 ShuffleRDD 返 回 的 ShuffleDependency 中 所 包含 的 内 容 。 而 ShuffleRDD 本 身 的 运算 操作 (其 实 就 是 一 个 获取 Shuffle 结 果 的 过 程 ) ， 是 在 下 一 个 Stage 里 进行 的 。 


2. 生 成 Job， 提 交 Stage 


划分 Stage 步 又 得 到 一 个 或 多 个 有 依赖 关系 的 Stage， 其 中 直接 触发 Job 的 RDD 所 关联 的 Stage 作 为 finalStage 生 成 一 个 Job 实 例 ， 这 两 者 的 关系 进一步 存储 在 resultStageToJob 映 射 表 中 ， 用 于 在 该 
Stage 全 部 完成 时 做 一 些 后 续 处 理 ， 如 报告 状态 、 清 理 Job 相 关 数 据 等 。 


具体 提交 一 个 Stage 时 ， 首 先 判断 该 Stage 所 依赖 的 父 stage 的 结果 是 否 可 用 ， 如 果 所 有 父 stage 的 结果 都 可 用 ， 则 提 人 交 该 Stage， 如 果 有 任何 一 个 父 stage 的 结果 不 可 用 ， 则 进 代 尝试 提交 父 stage。 所 
有 过 代 过 程 中 由 于 所 依赖 Stage 的 结果 不 可 用 而 没有 提交 成 功 的 Stage 都 被 放 到 waitingStages 列 表 中 等 待 将 来 被 提交 。 


当 一 个 属于 中 间 过 程 stage 的 任务 (这 种 类 型 的 任务 所 对 应 的 类 为 ShuffleMapTask) 完成 以 后 ，DAGScheduler 会 检查 对 应 的 Stage 的 所 有 任务 是 否 都 完成 了 ， 如 果 是 都 完成 了 ， 则 DAGScheduler 将 
重新 扫描 一 次 waitingStages 中 的 所 有 Stage， 检 查 它们 是 否 还 有 任何 依赖 的 Stage 没 有 完成 ， 如 果 没有 就 可 以 提交 该 Stage。 此 外 ， 每 当 完 成 一 次 DAGScheduler 的 事件 循环 以 后 ， 也 会 触发 一 次 从 等 待 和 和 失 
败 列表 中 扫描 并 提交 就 绪 Stage 的 调用 过 程 。 


3. 任 务 集 的 提交 


每 个 Stage 的 提交 ， 最 终 是 转换 成 一 个 TaskSet 任 务 集 的 提交 ，DAGScheduler 通 过 TaskScheduler 接 口 提交 TaskSet， 这 个 TaskSet 最 终 会 触发 TaskScheduler 构 建 一 个 TaskSetManager 的 实例 来 管理 
这 个 TaskSet 的 生命 周期 ， 对 于 DAGScheduler 来 说 提交 Stage 的 工作 到 此 就 完成 了 。 而 TaskScheduler 的 具体 实现 则 会 在 得 到 计算 资源 时 ， 进 一 步 通 过 TaskSetManager 调 度 具体 的 Task 到 对 应 的 Executor 
节点 上 进行 运算 。 


4 任务 作业 完成 状态 的 监控 


要 保证 相互 依赖 的 Job/Stage 能 够 得 到 顺利 的 调度 执行 ，DAGScheduler 就 必然 需要 监控 当前 Job/Stage 乃 至 Task 的 完成 情况 。 这 是 通过 对 外 (主要 是 对 TaskScheduler) 暴露 一 系列 的 回调 函数 来 实现 
的 ， 对 于 Taskscheduler 来 说 ， 这 些 回调 函数 主要 包括 任务 集 的 开始 、 结 束 、 失 败 ， 任 务 集 的 失败 ，DAGSscheduler 根 据 这 些 Task 的 生命 周期 信息 进一步 维护 Job 和 Stage 的 状态 信息 。 


此 外 ，TaskSscheduler 还 可 以 通过 回调 函数 通知 DAGScheduler 具 体 的 Executor 的 生命 状态 ， 如 果 某 一 个 Executor 骨 溃 ， 或 者 由 于 任何 原因 与 Driver 失 去 联系 ， 则 对 应 stage 的 ShuffleMapTask 的 输出 
结果 也 将 被 标志 为 不 可 用 ， 这 也 将 导致 对 应 stage 状态 的 变更 ， 进 而 影响 相关 Job 的 状态 ， 再 进一步 可 能 触发 对 应 Stage 的 重新 提交 来 重新 计算 获取 相关 的 数据 。 


5. 任 务 结果 的 获取 


一 个 具体 的 任务 在 Executor 中 执行 完毕 以 后 ， 其 结果 需要 以 某 种 形式 返回 给 DAGScheduler， 根 据 任务 类 型 的 不 同 ， 任 务 结果 的 返回 方式 也 不 同 。FinalStage 所 对 应 的 任务 (对 应 的 类 为 ResultTask) 
返回 给 DAGScheduler 的 是 运算 结果 本 身 ， 而 ShuffleMapTask 返 回 给 DAGScheduler 的 是 一 个 MapStatus 对 象 ，MapStatus 对 象 管理 了 ShuffleMapTask 的 运算 输出 结果 在 BlockManager 里 的 相关 存储 信 
息 ， 而 非 结果 本 身 。 这 些 存储 位 置信 息 将 作为 下 一 个 Stage 任 务 获 取 输 入 数据 的 依据 。 而 根据 任务 结果 大 小 的 不 同 ，ResultTask 返 回 的 结果 又 分 为 两 类 ， 如 果 结 果 足 够 小 ， 则 直接 放 在 DirectTaskResult 对 象 
内 ， 如 果 超 过 特定 尺寸 (默认 约 10MB) 则 在 Executor 端 会 将 DirectTaskResult 先 序列 化 ， 再 把 序列 化 的 结果 作为 一 个 Block 存 放 在 BlockManager 内 ， 而 后 将 BlockManager 返 回 的 BlocklID 放 在 
IndirectTaskResult 对 象 中 返回 给 TaskScheduler，TaskScheduler 进 而 调用 TaskResultGetter 将 IndirectTaskResult 中 的 BlocklD 取 出 并 通过 BlockManager 最 终 取得 对 应 的 DirectTaskResult。 当 然 从 
DAGScheduler 的 角度 来 说 ， 这 些 过 程 对 它 来 说 是 透明 的 ， 它 所 获得 的 都 是 任务 的 实际 运算 结果 。 


15.2.3 ”调度 模块 
1.DAGScheduler 


DAGScheduler 是 一 个 高 级 的 Scheduler 层 ， 它 实现 了 基于 Stage 的 调度 ， 为 每 一 个 Job 都 计算 Stage， 跟 踪 哪 一 个 RDD 和 Stage 的 输出 被 物化 (固化) ， 以 及 寻找 到 执行 Job 的 最 小 的 调度 ， 然 后 将 
Stage 作 为 TaskSets 提 交 给 底层 的 TaskScheduler， 由 TaskScheduler 执 行 。 


除了 计算 stage 的 DAG 图 之 外 ， 该 调度 器 还 会 决定 运行 Task 最 优 的 位 置 ， 这 是 根据 当前 的 Cache 状 态 ， 并 且 把 这 些 状态 传递 给 TaskScheduler。 而 且 ， 它 会 在 Shuffle 的 输出 出 现 错误 (如 输出 文件 丢 
Ac) 时 处 理 失败 ， 这 时 ， 之 前 老 的 Stage 就 需要 被 重 做 。 对 于 并 不 是 由 于 shuffle file 的 丢失 而 造成 的 Stage 的 失败 ， 这 种 失败 由 TaskScheduler 引 发 ， 此 时 TaskScheduler 会 在 取消 整个 Stage 之 前 重 试 几 次 
Task， 若 重 试 的 几 次 都 失败 ， 则 取消 Stage。 


DAGSscheduler 的 主要 功能 是 接收 用 户 提交 的 Job， 将 Job 根 据 类 型 划分 为 不 同 的 stage， 并 在 每 一 个 Stage 内 产生 一 系列 的 Task， 向 TaskScheduler 提 交 Task。 


用 户 所 提交 的 Job 在 得 到 DAGScheduler 的 调度 后 ， 会 被 包装 成 ActiveJob， 同 时 会 启动 JobWaiter 阻 塞 监 听 Job 的 完成 状况 。 同 时 ， 依 据 Job 中 RDD 的 dependency 和 dependency 属 性 
(NarrowDependency, ShufflerDependecy) ，DAGScheduler 会 根据 依赖 关系 的 先后 产生 出 不 同 的 stage DAG (result stage, shuffle map stage) 。 


在 每 一 个 Stage 内 部 ， 根 据 Stage 产 生出 相应 的 Task， 包 括 ResultTask 或 是 ShuffleMapTask， 这 些 Task 会 根据 RDD 中 partition 的 数量 和 分 布 ， 产 生出 一 组 相应 的 Task， 并 将 其 包装 为 TaskSet 提 交 到 
TaskScheduler 上 去 。 


在 用 户 创建 SparkContext 对 象 时 ，Spark 会 在 内 部 创建 DAGScheduler 对 象 ， 并 根据 用 户 的 部 署 情况 ， 绑 定 不 同 的 TaskSechduler， 并 启动 DAGcheduler。 


Gvolatile private[spark] var dagScheduler: DAGScheduler = _ 
try { 
dagScheduler = new DAGScheduler (this) 
) catch ( 


Case e: Exception => throw 
new SparkException("DAGScheduler cannot be initialized due to $s".format 
(e.getMessage)) 


} 
private var taskScheduler: TaskScheduler = { 
// http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 


) 
taskScheduler.start () 
private var dagScheduler = new DAGScheduler (taskScheduler) 
dagScheduler.start () 


而 DAGScheduler 的 启动 会 在 内 部 创建 daemon 线 程 ，daemon 线 程 调用 run () 从 block queue 中 取出 event 进 行 处 理 。 


private def run() { 
SparkEnv.set (env) 


while (true) { 

val event = eventQueue.poll(POLL TIMEOUT, TimeUnit.MILLISECONDS) 
if (event != null) { 

logDebug ("Got event of type " + event.getClass.getName) 
} 
if (event != null) { 

if (processEvent (event)) { 

return 

} 
} 
val time = System.currentTimeMillis() // TODO: use a pluggable clock for testability 


i (failed.size > 0 && time > lastFetchFailureTime + RESUBMIT TIMEOUT) { 
resubmitFailedStages () 
} else { 
submitWaitingStages () 
} 
} 
} 


mrun () 会 调用 processEvent 来 处 理 不 同 的 event。DAGScheduler 处 理 的 event 包 括 : JobSubmitted、CompletionEvent、ExecutorLost、TaskFailed、StopDAGScheduler。 根 据 event 的 不 同调 
用 不 同 的 方法 去 处 理 。 


本 质 上 DAGScheduler 是 一 个 生产 者 -消费 者 模型 ， 用 户 和 TaskScheduler 产 生 event 将 其 放 入 block queue，daemon 线 程 消费 event 并 处 理 相应 事件 。 
2.TaskSetManager 


DAGScheduler 负 责 将 一 组 任务 提交 给 TaskScheduler 以 后 ， 这 组 任务 的 调度 工作 已 经 完成 ， 接 下 来 这 组 任务 内 部 的 调度 逻辑 ， 则 是 由 TaskSetManager 完 成 的 。 


TaskSetManager 的 主要 接口 包括 : 
ResourceOffer: 根据 TaskScheduler 所 提供 的 单个 Resource 资 源 包括 Host、Executor 和 Locality 的 要 求 返回 一 个 合适 的 Task。 


TaskSsetManager 内 部 会 根据 上 一 个 任务 成 功 提 交 的 时 间 ， 自 动 调整 自身 的 Locality 匹 配 策略 ， 如 果 上 一 次 成 功 提交 任务 的 时 间 间 隔 很 长 ， 则 降低 对 Locality 的 要 求 〈 例 如， 从 最 差 要 求 Process Local 降 
低 为 最 差 要 求 Node Local) ， 反 之 则 提高 对 Locality 的 要 求 。 这 一 动态 调整 Locality 策 略 基 本 可 以 理解 为 是 为 了 提高 任务 在 最 佳 Locality 的 情况 下 得 到 运行 的 机 会 ， 因 为 Resource 资 源 可 能 是 在 短期 内 分 批 提 
供给 TaskSetManager 的 ， 动 态 调 整 Locality 门 槛 有 助 于 改善 整体 Locality 的 分 布 情 况 。 


举 个 例子 ， 如 果 TaskSetManager 内 部 有 a/b 两 个 任务 等 待 调度 ，a/b 两 个 任务 Prefer 的 节点 分 别 是 Host A 和 Host B， 此 时 先 有 一 个 Host C 的 资源 以 最 差 匹 配 为 Rack Local 的 形式 提供 给 
TaskSetManager， 如 果 没 有 内 部 动态 Locality 调 整 机 制 ， 那 么 比如 任务 a 将 被 调度 。 接 下 来 在 很 短 的 时 间 间 隔 内 ， 一 个 Host A 的 资源 来 到 ， 同 样 的 任务 b 被 调度 。 而 原本 最 佳 的 情况 应 该 是 任务 b 调 度 给 
Host C， 而 任务 a 调度 给 Host A, 


当然 动态 Locality 也 会 带 来 一 定 的 调度 延迟 ， 因 此 如 何 设 置 合适 的 调整 策略 也 是 需要 针对 实际 情况 来 确定 的 。 目 前 可 以 设置 的 参数 包括 : spark.locality.wait.process, spark.locality.wait.node, 


spark.locality.wait.rack, 


即 各 个 Locality 级 别 中 TaskSetManager 等 待 分 配 下 一 个 任务 的 时 间 ， 如 果 距 离 上 一 次 成 功 分 配 资 源 的 时 间 间 隔 超过 对 应 的 参数 值 ， 则 降低 匹配 要 求 ( 即 process 一 node 一 rack 一 any) ， 而 每 当成 功 分 
配 一 个 任务 时 ， 则 重 置 时 间 间 隔 ， 并 更 新 Locality 级 别 为 当前 成 功 分 配 的 任务 的 Locality 级 别 。 


handleSuccessfulTask/handleFailedTask/handleTaskGettingResult: 用 于 更 新 任务 的 运行 状态 ，TaskSetManager 在 这 些 函 数 中 除了 更 新 自身 维护 的 任务 状态 列表 等 信息 ， 以 及 用 于 剩余 任务 的 调 
度 以 外 ， 也 会 进一步 调用 DAGScheduler 的 函数 接口 将 结果 通知 给 它 。 


此 外 ，TasksetManager 在 调度 任务 时 还 可 能 进一步 考虑 Speculation 的 情况 ， 即 当 某 个 任务 的 运行 时 间 超 过 其 他 任务 的 运行 完成 时 间 的 一 个 特定 比例 值 时 ， 该 任务 可 能 被 重复 调度 。 目 的 当然 是 防止 某 
个 运行 中 的 Task 由 于 某 些 特殊 原因 (例如 ， 所 在 节点 CPU 负载 过 高 、1O 带 宽 被 占 等 ) 运行 特别 缓慢 拖延 了 整个 Stage 的 完成 时 间 。Sspeculation 同 样 需 要 根据 集群 和 作业 的 实际 情况 合理 配置 ， 否 则 可 能 反而 
降低 集群 性 能 。 


3.TaskScheduler 


每 一 个 TaskScheduler 只 为 一 个 单独 的 SparkContext 进 行 调度 安排 Tasks，DAGScheduler 会 为 每 一 个 Stage 向 TaskScheduler 提 交 TaskSets (也 就 是 说 ，TaskSets 是 在 DAGScheduler 完 成 组 
装 ) ，TaskScheduler 会 负责 向 Cluster 发 送 Tasks， 并 且 调 用 backend 运 行 Task。 同 时 ， 在 tasks 失 败 时 重 试 ， 然 后 会 将 运行 Task、 重 试 Task 的 事件 返回 给 DAGScheduler。 


TaskSchedulerListener: TaskSchedulerListener 部 分 的 主要 功能 是 监听 用 户 提 交 的 Job， 将 Job 分 解 为 不 同类 型 的 Stage 以 及 相应 的 Task， 并 向 TaskScheduler 提 交 Task。 


TaskScheduler: TaskSscheduler 接 收 用 户 提交 的 Task 并 执行 。TaskScheduler 根 据 部 署 的 不 同 又 分 为 三 个 子 模块 : ClusterScheduler、LocalScheduler、MesosScheduler。TaskScheduler 会 根据 部 
署 方式 而 选择 不 同 的 SchedulerBackend 来 处 理 。 


在 SparkContext.createTaskScheduler 中 ， 针 对 不 同 的 部 署 方式 会 有 不 同 的 TaskScheduler 与 SchedulerBackend 进 行 组 合 : 
- Local 模 式 : TaskSchedulerImpl+LocalBackend; 
. Spark f& ZEE A: TaskSchedulerImpl--SparkDepolySchedulerBackend ; 
* Yarn-Clustet 模 式 : YarnClusterScheduler-- CoatseGrainedSchedulerBackend ; 
- Yarn-Client]£ A: YarnClientClustetScheduler-- Y arnClientSchedulerBackend o 
TaskScheduler 类 负责 任务 调度 资源 的 分 配 ，SchedulerBackend 负 责 与 Master、Worker 通 信 收 集 Worker 上 分 配给 该 应 用 使 用 的 资源 情况 。 


以 Spark 集 群 模式 为 例 ， 分 析 在 TaskSchedulerImpl 与 SparkDepolySchedulerBackend 类 中 的 具体 操作 。 一 个 典型 任务 调度 模块 的 主要 功能 就 是 获取 集群 资源 信息 ， 然 后 根据 调度 策略 为 任务 分 配 资 
源 ，TaskScheduleriImpl 也 是 这 个 工作 原理 ， 分 为 资源 收集 与 资源 分 配 。 


(1) 资源 收集 


SparkDepolySchedulerBackend 类 就 专门 负责 收集 为 Application 分 配 的 Worker 的 资源 信息 ， 在 它 的 父 类 CoarseGrainedSchedulerBackend 中 的 DriverActor 就 是 与 Worker 通 信和 的 Actor。Worker 启 
动 后 会 向 Driver 发 送 RegisterExecutor 消 息 ， 此 消息 中 就 包含 了 Executor 为 Application 分 配 的 计算 资源 信息 ， 而 接收 该 消息 的 Actor 也 正 是 DriverActor。 


(2) 资源 分 配 


TaskSchedulerlmpl 类 就 是 负责 为 Task 分 配 资源 的 。 在 CoarseGrainedSchedulerBackend 获 取 到 可 用 资源 后 就 会 通过 MakeOffers 方 法 通知 TaskSchedulerlmpl 对 资源 进行 分 配 ，TaskSchedulerlImpl 
的 ResourceOffers 方 法 就 负责 为 Task 分 配 计算 资源 ， 在 为 Task 分 配 好 资源 后 ， 又 会 通过 LauchTasks 方 法 发 送 LaunchTask 消 息 通知 Worker 上 的 executor 执 行 Task， 最 后 ， 总 结 一 下 TaskScheduler 的 相关 
知识 。TaskScheduler 是 在 Application 执 行 过 程 中 ， 为 它 进 行 任务 调度 的 ， 是 属于 Driver 侧 的 。 对 于 一 个 Application 就 会 有 一 个 TaskScheduler，TaskScheduler 和 Application 是 一 一 对 应 的 。 
TaskScheduler 对 资源 的 控制 也 比较 鲁 棒 (所 以 会 取 名 CoarseGrainedSchedulerBackend) ， 一 个 Application 申 请 Worker 的 计算 资源 ， 只 要 Application 不 结束 就 会 一 直 被 占有 。 


4.Stage 


根据 RDD 依 赖 关 系 的 不 同 ，Spark 也 将 每 一 个 Job 分 为 不 同 的 Stage， 而 Stage 之 间 的 依赖 关系 则 形成 DAG。 对 于 NarrowDependency，Spark 会 尽量 多 地 将 RDD 转 换 放 在 同一 个 Stage 中 ; 而 对 于 
WideDependency， 由 于 WideDependency 通 常 意味 着 Shuffle 操 作 ， 因 此 Spark 会 将 此 Stage 定 义 ShuffleMapStage， 以 便于 向 MapOutputTracker 注 册 Shuffle 操 作 。Spark 通 常 将 Shuffle 操 作 定 义 为 
Stage 的 边界 。 


(1) ShuffleMapStage 


这 种 Stage 是 以 Shuffle 为 输出 边界 ， 其 输入 边界 可 以 是 从 外 部 获取 数据 ， 也 可 以 是 另 一 个 ShuffleMapStage 的 输出 ， 其 输出 可 以 是 另 一 个 Stage 的 开始 。ShuffleMapStage 的 最 后 Task 就 是 
ShuffleMapTask， 在 一 个 Job 里 可 能 有 该 类 型 的 Stage， 也 可 能 没有 该 类 型 的 Stage。 


(2) ResultStage 


这 种 Stage 是 直接 输出 结果 ， 其 输入 边界 可 以 是 从 外 部 获取 数据 ， 也 可 以 是 另 一 个 ShuffleMapStage 的 输出 。ResultStage 的 最 后 Task 就 是 ResultTask， 在 一 个 Job 里 必定 有 该 类 型 的 Stage。 一 个 Job 合 


有 一 个 或 多 个 Stage， 但 至 少 含有 一 个 Resultstage。 


15.2.4 _ Job 的 生 与 死 


既然 用 户 提交 的 Job 最 终 会 交 由 DAGScheduler 处 理 ，DAGScheduler 处 理 job 的 整个 流程 。 在 这 里 我 们 分 析 两 种 不 同类 型 Job 的 处 理 流程 。 


(1) 没有 Shuffle 和 Reduce 的 Job 


val textFile Sc.textFile ("README .md") 
textFile.filter(line => line.contains ("Spark")) .count () 


(2) 有 Shuffle 和 Reduce 的 Job 


val textFile Sc.textFile ("README.md") 
textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey ((a, b) => a + b) 


对 RDD 的 count () 和 reduceByKey () 操作 都 会 调用 SparkContext 的 runJob () 来 提交 Job， 而 SparkContext 的 runJob () 最 终 会 调用 DAGScheduler 的 runJob () : 


def runJob[T, U: ClassManifest]( 
finalRdd: RDD[T], 
func: (TaskContext, Iterator[T]) => U, 
partitions: Seq[Int], 

callSite: String, 
allowLocal: Boolean, 
resultHandler: (Int, U) -» Unit) 


if (partitions.size == 0) ( 
return 


} 
val (toSubmit, waiter) = prepareJob ( 
finalRdd, func, partitions, callSite, allowLocal, resultHandler) 
eventQueue.put (toSubmit) 
waiter.awaitResult() match { 

case JobSucceeded => {} 

case JobFailed(exception: Exception) => 
logInfo ("Failed to run " + callSite) 
throw exception 


runJob () 会 调用 prepareJob () 对 Job 进 行 预 处 理 ， 封 装 成 Jobsubmitted 事 件 ， 放 入 queue 中 ， 并 阻塞 等 待 Job 完 成 。 


当 daemon 线 程 的 processEvent () 从 queue 中 取出 JobSsubmitted 事 件 后 ， 会 根据 Job 划 分 出 不 同 的 Stage， 并 且 提 交 Stage: 


case JobSubmitted(finalRDD, func, partitions, allowLocal, callSite, listener) => 
val runlId = nextRunId.getAndIncrement ( 
val finalStage - newStage(finalRDD, None, runId) 
val job = new ActiveJob(runlId, finalStage, func, partitions, callSite, listener) 
clearCacheLocs () 


— 


if (allowLocal && finalStage.parents.size == 0 && partitions.length == 1) ( 
runLocally (job) 

) else { 
activeJobs += job 
resultStageToJob(finalStage) = job 


submitStage (finalStage) 


首先 ， 对 于 任何 Job 都 会 产生 出 一 个 finalStage 来 产生 和 提交 Task。 其 次 ， 对 于 某 些 简单 的 Job， 它 没有 依赖 关系 ， 并 且 只 有 一 个 Partition， 这 样 的 Job 会 使 用 local thread 处 理 而 并 非 提 交 到 
TaskScheduler EA, 


当 产 生 finalStage 后 ， 需 要 调用 submitStage () ， 它 根据 stage 之 间 的 依赖 关系 得 出 stage DAG ， 并 以 依赖 关系 进行 处 理 : 


private def submitStage (stage: Stage) { 
if (!waiting(stage) && !running(stage) && !failed(stage)) { 
val missing = getMissingParentStages (stage).sortBy( .id) 
if (missing == Nil) ( 


submitMissingTasks (stage) 
running += stage 

) else { 

for (parent «- missing) ( 
submitStage (parent) 

} 


waiting += stage 


对 于 新 提交 的 Job，finalStage 的 parent stage 还 未 获得 ， 因 此 submitStage 会 调用 getMissing-ParentStages () 来 获得 依赖 关系 : 


private def getMissingParentStages (stage: Stage): List[Stage] = ( 
val missing = new HashSet [Stage] 
val visited = new HashSet[RDD[ ]] 
def visit(rdd: RDD[ ]) ( 


if (!visited(rdad)) ( 
visited += rdd 
if (getCacheLocs (rdd) .contains (Nil)) { 
for (dep <- rdd.dependencies) { 
dep match { 
case shufDep: ShuffleDependency[_,_] => 
val mapStage = getShuffleMapStage (shufDep, stage.priority) 
f (!mapStage.isAvailable) { 
missing += mapStage 
} 
case narrowDep: NarrowDependency[_] => 
visit (narrowDep. rdd) 
} 


} 
} 
} 


E 


} 
visit (stage.rad) 
missing.toList 


) 


XÆ, parent stage 通 过 RDD 的 依赖 关系 递归 遍历 获得 。 对 于 WideDependecy 也 就 是 ShuffleDependecy，Spark 会 产生 新 的 mapSstage 作 为 finalstage 的 parent， 而 对 于 NarrowDependecy，Spark 
则 不 会 产生 新 的 Stage。 这 里 ， 对 Stage 的 划分 是 按照 15.2.3 节 第 4 部 分 提 到 划分 依据 进行 划分 ， 因 此 对 于 本 段 开头 提 到 的 两 种 Job， 第 一 种 Job 只 会 产生 一 个 finalStage， 而 第 二 种 Job 会 产生 finalStage 和 
mapStage,。 


当 stage DAG 产 生 以 后 ， 针 对 每 个 Stage 需 要 产生 Task 去 执行 ， 故 这 会 调用 submitMissingTasks () : 


private def submitMissingTasks (stage: Stage) { 
val myPending = pendingTasks.getOrElseUpdate (stage, new HashSet) 
myPending.clear() 
var tasks = ArrayBuffer[Task[ ]] 0) 

if (stage.isShuffleMap) { 

for (p <- 0 until stage.numPartitions if stage.outputLocs(p) == Nil) { 
val locs getPreferredLocs (stage.rdd, p) 
tasks += new ShuffleMapTask(stage.id, stage.rdd, stage.shuffleDep.get, p, locs) 

} 


} else { 
val job = resultStageToJob (stage) 
for (id <- 0 until job.numPartitions if (!job.finished(id))) { 


val partition = job.partitions (id) 
val locs getPreferredLocs (stage.rdd, partition) 
tasks += new ResultTask(stage.id, stage.rdd, job.func, partition, locs, id) 


aA 


if (tasks.size > 0) { 
myPending ++= tasks 
taskSched.submitTasks ( 
new TaskSet(tasks.toArray, stage.id, stage.newAttemptlId(), stage.priority)) 
f (!stage.submissionTime.isDefined) ( 
stage.submissionTime = Some (System.currentTimeMillis()) 


E 


} 
} else { 
running -= stage 


首先 根据 Stage 所 依赖 的 RDD 的 Partition 的 分 布 ， 会 产生 出 与 Partition 数 量 相 等 的 Task， 这 些 Task 根 据 Partition 的 Locality 进 行 分 布 ; 其 次 对 于 FinalStage 或 是 mapStage 会 产生 不 同 的 Task; 最 后 所 
有 的 Task 会 封装 到 TaskSet 内 提交 到 TaskScheduler 去 执行 。 


至 此 ，Job 在 DAGScheduler 内 的 启动 过 程 全 部 完成 ， 交 由 TaskScheduler 执 行 task， 当 Task 执 行 完 后 会 将 结果 返回 给 DAGScheduler，DAGScheduleri 调 用 handleTaskComplete () 处 理 Task 返 回 : 


private def handleTaskCompletion (event: CompletionEvent) { 
val task = event.task 
val stage = idToStage (task.stageId) 
def markStageAsFinished(stage: Stage) - ( 
val serviceTime = stage.submissionTime match { 
case Some(t) => "$.03f".format((System.currentTimeMillis() - t) / 1000.0) 
case _ => "Unkown" 
} 
logInfo("%s ($s) finished in $s s".format (stage, stage.origin, serviceTime)) 
running -= stage 
} 
event.reason match { 
case Success => 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
task match { 
case rt: ResultTask[ , ] => 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
case smt: ShuffleMapTask => 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 


) 


case Resubmitted => 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
case FetchFailed(bmAddress, shuffleld, mapId, reduceld) => 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 
case other => 


abortStage (idToStage(task.stagelId), task + " failed: " + other) 


每 个 执行 完成 的 Task 都 会 将 结果 返回 给 DAGScheduler，DAGScheduler 根 据 返 回 结果 进行 下 一 步 的 动作 。 


153 “本章 小 结 


本 章 介绍 了 Spark 调 度 的 相关 知识 ， 从 应 用 程序 间 的 调度 和 应 用 程序 中 的 调度 讲 起 。 在 应 用 程序 间 的 调度 ， 讲 解 了 静态 资源 调度 和 动态 资源 调度 之 间 的 关系 ; 在 应 用 程序 中 的 调度 ， 讲 解 了 公平 调度 池 
和 配置 调度 池 属 性 。 接 下 来 讲解 了 调度 器 ， 重 点 讲解 了 调度 池 的 构建 ，Job 调 度 流程 的 几 个 阶段 ， 以 及 调度 模块 。 


B16 FASHE 


且 夫 水 之 积 也 不 厚 ， 则 其 负 大 月 也 无 力 。 


一 一 《庄子 道 遥 游 》 


如 果 水 积 的 不 深 不 厚 ， 那 么 它 就 没有 力量 负载 大 船 。 


做 大 数据 ， 存 储 是 基础 ， 只 有 打下 坚实 、 深 厚 的 基础 ， 才 能 在 大 数据 时 代 高 歌 猛 进 。 大 数据 之 存储 管理 是 我 们 学 习 Spark 实 战 的 基础 性 工作 的 开始 ， 但 远 远 不 是 结束 。 如 何 保证 数据 存储 的 安全 性 、 完 
整 性 、 一 致 性 ， 值 得 我 们 深入 研究 。 


16.1 硬件 环境 


无 论 是 Spark 开 发 者 ， 还 是 管理 人 员 ， 都 会 遇 到 怎么 为 Spark 配 置 硬 件 的 问题 ， 虽 然 硬件 配置 取决 于 具体 的 情况 ， 但 是 我 们 仍然 可 以 从 存储 系统 、 本 地 磁盘 、 内 存 、 网 络 和 CPU 等 方面 给 出 一 些 建 议 。 
16.1.1 存储 系统 


大 多 数 Spark 作 业 都 需要 从 外 部 存储 系统 中 读 取 输 入 数据 (如 HDFS 文 件 系统 ) ， 所 以 运行 Spark 作 业 的 服务 器 尽 可 能 接近 存储 系统 是 至 天 重要 的 。 
如 果 具 备 条 件 ， 在 与 存储 系统 相同 的 交换 机 上 运行 Spark 应 用 ; 如 果 不 具备 条 件 ， 在 与 存储 系统 相同 的 局 域 网 中 运行 Spark。 


对 于 低 潜在 性 数据 存储 ， 如 HBase， 在 不 同 的 节点 运行 计算 作业 以 避免 作业 间 相 互 干扰 。 


16.1.2 ”本 地 磁盘 


尽管 Spark 可 以 在 内 存 中 进行 大 量 的 运算 ,但 是 其 仍然 需要 本 地 磁盘 来 存储 不 能 放 入 内 存 中 的 数据 ， 以 及 不 同 Stage 之 间 的 中 间 输 出 结果 。 
存放 中 间 输 出 数据 的 硬盘 最 好 不 要 做 RAID， 仪 作为 分 散 的 挂 载 点 即 可 ， 以 noatime 选 项 挂 载 磁盘 ， 以 减少 不 必要 的 写 操 作 。 


在 Spark 中 ， 配 置 spark.local.dir 变 量 为 一 串 由 逗号 隔 开 的 本 地 磁盘 。 如 果 正 在 运行 HDFS， 也 可 以 使 用 与 HDFs 相 同 的 磁盘 。 


16.1.3 ”内 存 


spark 可 以 在 具有 几 GB 到 上 百 GB 内 存 的 机 器 上 运行 。 在 所 有 的 情况 中 ， 推 荐 为 Spark 分 配 75% 的 内 存 ， 为 操作 系统 和 buffer 缓 存留 下 空间 。 


需要 的 内 存量 取决 于 你 的 应 用 。 对 于 一 个 确定 大 小 的 数据 集 ， 如 果 要 确定 你 的 应 用 具体 占用 的 内 存 大 小 ， 可 以 将 数据 集 的 一 部 分 加 载 到 一 个 SparkRDD 中 ， 然 后 使 用 Spark 监 控 UI (http://<driver- 
node>:4040) 中 的 Storage Tab 查 看 RDD 内 存 中 的 大 小 。 


内 存 使 用 很 大 程度 上 受 存储 等 级 和 序列 化 模式 的 影响 ，JVM 在 200GB 以 上 内 存 的 情况 下 并 不 能 始终 保证 较 好 的 性 能 。 如 果 购 买 的 机 器 具有 比 之 更 大 的 RAM， 就 可 以 在 每 个 节点 上 运行 多 个 Worker 
JVM。 在 Spark 的 独立 部 署 模式 中 ， 可 以 通过 conf/spark-env.sh 中 的 SPARK WORKER INSTANCES 和 SPARK_WORKER_CORES 变 量 设置 每 个 节点 的 Worket 数 和 每 个 Worker 的 CPU 核 的 数目 。 


在 Hadoop 集 群 相同 的 节点 建立 一 个 独立 部 署 模 式 的 集群 ， 然 后 配置 Spark 和 Hadoop 的 内 存 以 及 CPU 使 用 率 ， 避 免 相 互 干涉 ; 也 可 以 在 通用 的 集群 管理 器 上 ， 如 Mesos 或 Hadoop YARN, ， 运 行 Spark 
和 Hadoop。 


对 于 Hadoop 2 来 说 ，yarn.nodemanager.resource.memory-mb 设 置 NodeManager 总 的 可 用 物理 内 存 ，yarn.scheduler.maximum-allocation-mb 设 置 单个 Task 可 申请 的 最 大 内 
存 ，mapreduce.map.memory.mb 设 置 map 配 置 的 内 存 ，mapreduce.reduce.memory.mb 设 置 reduce 配 置 的 内 存 ，mapred.map.java.opts 设 置 每 个 maptask 的 内 存 ，mapreduce.reduce.java.opts 设 
置 每 个 reduce task 的 内 存 。 


16.1.4 网 络 和 CPU 


当 数 据 位 于 内 存 中 时 ， 多 数 Spark 应 用 的 速度 是 受制 于 网 络 的， 使 用 10GB 或 是 更 快 的 网 络 是 加 快 应 用 运行 速度 的 最 好 方法 。 对 于 分 布 式 的 Reduce 应 用 ， 如 GroupBy 和 ReduceBy， 这 一 点 尤其 明显 。 在 
任何 应 用 中 ， 你 可 以 在 用 户 监控 UI 中 看 到 Spark 在 网 络 中 的 数据 混合 量 。 


Spark 可 以 扩展 到 具有 数 十 个 CPU 核 的 机 器 上 ， 因 为 Spark 保 持 了 线程 之 间 的 最 小 共享 。 你 可 以 为 每 个 机 器 配备 8~16 个 核 。 根 据 用 户 工作 载荷 的 CPU 占 用 率 ， 用 户 可 能 会 需要 更 多 的 CPU 核 : 大 多 数 应 
用 的 性 能 都 受制 于 CPU 资源 或 是 网 络 带 宽 。 


16.2 storage 模块 


Spark 的 storage 模块 主要 分 为 通信 层 和 存储 层 两 层 。 
: 通信 层 : Storage 模 块 采用 的 是 Master-Slave 结 构 来 实现 通信 层 ，Master 和 Slave 之 间 通 过 通信 层 来 传输 控制 信息 和 状态 信息 。 
| 存储 层 : Storage 模 块 需要 把 数据 存储 到 disk 或 是 memory 上 ， 有 可 能 还 需 teplicate 到 远 端 ， 这 都 是 由 存储 层 实现 和 提供 相应 接口 。 
为 了 更 好 地 和 其 他 模块 进行 交互 ，Storage 模 块 提供 了 统一 的 操作 类 BlockManager， 外 部 类 与 Storage 模 块 打交道 都 需要 通过 调用 BlockManager 的 相应 接口 来 实现 。 
16.2.1 通信 层 


下 面 主 要 讲解 通信 层 的 架构 、 通 信 层 的 消息 传递 和 存储 模块 的 注册 。 


通信 层 的 UML 类 图 如 图 16-1 所 示 ， 通 过 类 图 可 以 发 现 整个 通信 模块 主要 由 BlockManagerMaster、BlockManagerMasterActor、BlockManagerSlaveActor 等 模块 组 成 。 


BlockManagerMessaees BlockManagerSlave Actor 


BlockManager | |. BlockManagerMasterA ctor 


图 16-1 Storage 模块 通信 层 类 图 
下 面 我 们 来 看 看 各 个 类 在 Master 和 Slave 上 所 扮演 的 角色 的 不 同 ， 如 图 16-2 所 示 。 
对 于 Master 和 Slave，BlockManager 的 创建 有 所 不 同 : 


Master 在 Client Driver 模 式 下 ，BlockManagerMaster 拥 有 BlockManagerMasterActor 的 actor 和 所 有 BlockManagerSlaveActor 的 ref。 对 于 Slave，BlockManagerMaster 则 拥有 BlockManager- 
MasterActor 的 ref 和 自身 BlockManagerSlaveActor 的 actor。 


BlockManagerMaster 
| Actor(ref) 


BlockManagerMaster 
Actor(actor) 


BlockManagerSlave 
Actor(actor) 


图 16-2 ”Storage 模 块 通信 交互 流程 


BlockManagerMasterActor 在 ref 和 actor 之 间 进 行 通 信 ; BlockManagerslaveActor 在 ref 和 actor 之 间 通 信 。 其 中 ，actor 和 ref 是 Akka 中 两 个 不 同 的 actor reference， 分 别 由 actorOf 和 actorFor 所 创 
建 。actor 类 似 于 网 络 服务 中 的 server 端 ， 它 保存 所 有 的 状态 信息 ， 接 收 Client 端 的 请 求 执行 并 返回 给 客户 端 ; ref 类 似 于 网 络 服务 中 的 Client 端 ， 通 过 向 Server 端 发 起 请 求 获取 结果 。 


BlockManager wrap 了 BlockManagerMaster， 通 过 BlockManagerMaster 进 行 通信 。Spark 会 在 Client Driver 和 Executor 端 创建 各 自 的 BlockManager， 通 过 BlockManager 对 Storage 模 块 进行 操 
作 ，BlockManager 对 象 在 SparkEnv 中 被 创建 。 


2. 通 信 层 消息 传递 
通信 层 消 息 传递 ， 包 括 BlockManagerMasterActor 和 BlockManagerSlaveActor 的 消息 传递 。 
其 中 ，BlockManagerMasterActor 的 消息 传递 主要 包括 Executor 到 Client Driver 和 Client Driver 到 Client Driver 的 消息 传递 。 


- Executor 到 Client Dtivet 的 消息 传递 。Executot 创 建 BlockManaget 后 向 Client Drivet 发 送 请 求 注册 自身 (RegisterBlockManager) ， 发 送 心跳 (heartbeat) ， 更 新 Block 信 息 (UpdateBlockInfo) ， 请 求 获得 其 他 


BlockManaget 的 id (GetPeers) ， 获 得 Block 所 在 BlockManaget 的 这 ， 获 取 一 组 Block 所 在 的 BlockManagetr id (GetLocations-MultipleBlockIds) o 


: Client Driver 到 Client Driver 的 消息 传递 。 获 取 Block 所 在 BlockManaget 的 id (Get-Locations) ， 获 取 一 组 Block 所 在 的 BlockManaget id (GetLocationsMultipleBlockIds) ， 删 除 所 保存 的 已 经 死亡 的 Executor 上 


的 BlockManaget (RemoveExecutor) ， 停 止 Client Driver 上 的 BlockManagerMasterActor (StopBlockManagerMaster) o 


有 些 消息 如 GetLocations 在 Executor 端 和 Client Driver 端 都 会 向 actor 请 求 ， 而 其 他 的 消息 如 RegisterBlockManager 只 会 由 Executor 端 的 ref 向 Client Driver 端 的 actor 发 送 ， 与 此 同时 如 


RemoveExecutor 则 只 会 由 Client Driver 端 的 ref 向 Client Driver 端 的 actor 发 送 。 
另外 ，BlockManagerSlaveActor 的 消息 传递 ， 主 要 是 Client Driver 到 Executor 的 传递 。 当 然 ， 通 信 层 中 还 涉及 许多 控制 消息 和 状态 消息 的 传递 。 
3. 注 册 存 储 模块 


前 面 已 经 介绍 了 BlockManager 对 象 是 如 何 被 创建 出 来 的 ， 当 BlockManager 被 创建 出 来 以 后 需要 向 Client Driver 注 册 自 己 ， 流 程 如 下 : 


BlockManager 会 调用 initialize () 初始 化 自身 ， 在 initialized () 函数 中 首先 调用 Block-ManagerMaster 向 Client Driver 注 册 自 己 ， 同 时 设置 heartbeat 定 时 器 ， 定 时 发 送 heartbeat 报 文 ， 可 以 看 到 


在 注册 自身 时 向 Client Driver 传 递 了 自身 的 slaveActor，Client Driver 收 到 slaveActor 以 后 会 将 其 与 之 对 应 的 BlockManagerlnfo 存 储 到 hashmap 中 ， 以 便 后 续 通 过 slaveActor 向 Executor 发 送 命令 。 


BlockManagerMaster 会 将 注册 请 求 包装 成 RegisterBlockManager 报 文 发 送 给 client driver 的 BlockManagerMasterActor，BlockManagerMasterActor 调 用 register () 函数 注册 BlockManager。 


16.2.2 存储 层 


下 面 讲解 一 下 数据 块 ，MemoryStore 如 何 存 取 Block 和 Partition 如 何 转 化 为 Block。 


1. 存 储 层 架 构 


我 们 知道 ，RDD 是 由 不 同 Partition 组 成 的 ，Transformation 和 Action 操 作 是 在 Partition 上 面 进行 的 ;而 在 Storage 模 块 内 部 ，RDD 又 被 视 为 由 不 同 的 Block 组 成 ， 对 于 RDD 的 存 取 是 以 Block 为 单位 进 
行 的 ， 本 质 上 Partition 和 Block 是 等 价 的 ， 只 是 看 待 的 角度 不 同 。 在 Spark Storage 模 块 中 存 取 数据 的 最 小 单位 是 Block， 所 有 的 操作 都 是 以 Block 为 单位 进行 的 。 


存储 层 的 UML 类 如 图 16-3 所 示 。 
BlockManager 对 象 被 创建 时 会 创建 出 MemoryStore 和 DiskStore 对 象 用 以 存 取 Block， 同 时 在 initialize () 函数 中 创建 BlockManagerWorker 对 象 用 以 监听 远程 的 Block 存 取 请 求 来 进行 相应 处 理 。 
2. 数 据 块 


DiskStore 可 以 配置 多 个 Folder，Spark 会 在 不 同 的 Folder 下 面 创建 Spark 文 件 夹 ， 文 件 夹 的 命名 方式 为 (spark-local-yyyyMMddHHmmss-xxxx，xxxx 是 一 个 随机 数 ) ， 所 有 的 Block 都 会 存储 在 所 创 
建 的 Folder 中 。DiskStore 会 在 对 象 被 创建 时 调用 createLocalDirs () 来 创建 文件 夹 。 


BlockStore 


BlockObjectWriter 


1 1 DiskStore 


pa 


图 16-3 Storage 模 块 通信 交互 流程 
在 DiskStore 中 ， 每 一 个 Block 都 被 存储 为 一 个 File， 通 过 计算 block id 的 散 列 值 将 Block 映 射 到 文件 中 。 


根据 block id 计算 出 hash 值 ， 将 hash 取 模 获 得 dirld 和 subDirld， 在 subDirs 中 找 出 相应 的 subDir， 若 没有 则 新 建 一 个 subDir， 最 后 以 subDir 为 路 径 、block id 为 文件 各 创建 file handler，DiskStore 使 
用 此 file handler 将 Block 写 入 文件 内 。 


因此 ， 在 DiskStore 中 存 取 Block 首 先是 要 将 block id 映射 成 相应 的 文件 路 径 ， 接 着 存 取 文件 即 可 。 
3.MemoryStorefzBXBlock 


相对 于 DiskStore 需 要 根据 block id hash 计 算出 文件 路 径 并 将 Block 存 放 到 对 应 的 文件 内 ，MemoryStore 管 理 Block 就 显得 非常 简单 : MemoryStore 内 部 维护 了 一 个 hashmap 来 管理 所 有 的 Block， 以 
Block id 为 Key 将 Block 人 存放 到 hashmap 中 。 


frtryToPut () 中 ， 首 先 调用 ensureFreeSpace () 确保 空闲 内 存 是 否 足以 容纳 Block， 若 可 以 则 将 该 Block 放 入 hashmap 中 进行 管理 ; 若 不 足以 容纳 则 通过 调用 dropFromMemory () 将 Block 写 入 
文件 。 而 从 MemoryStore 中 取得 Block 则 非常 简单 ， 只 需 从 hashmap 中 取出 Block id 对 应 的 value 即 可 。 


上 面 介绍 了 DiskStore 和 MemoryStore 对 于 Block 的 存 取 操作 ， 那 么 我 们 是 要 直接 与 它们 交互 存 取 数 据 ， 还 是 封装 了 更 抽象 的 接口 使 我 们 无 需 关心 底层 ? 
BlockManager 为 我 们 提供 了 put () 和 get () 函数 ， 用 户 可 以 使 用 这 两 个 国 数 对 Block 进 行 存 取 而 无 需 关 心底 层 实 现 。 

对 于 put () 操作 ， 主 要 分 为 以 下 3 个 步骤 : 

1) 为 Block 创 建 Blocklnfo 结 构 体 存储 Block 相 关 信 息 ， 同 时 将 其 加 锁 使 其 不 能 被 访问 。 

2) 根据 Block 的 storage level 将 Block 存 储 到 memory 或 是 disk 上 ， 同 时 解锁 标识 该 Block 已 经 Ready， 可 以 被 访问 。 

3) 根据 Block 的 Replication 数 决定 是 否 将 该 Block Replicate 到 远 端 。 


对 于 get () 函数 的 实现 ，get () 首先 会 从 Local 的 BlockManager 中 查找 Block， 如 果 找 到 则 返回 相应 的 Block， 若 Loca| 没 有 找到 该 Block， 则 发 起 请 求 从 其 他 Executor 上 的 BlockManager 中 查找 
Block。 在 通常 情况 下 ，Spark 任 务 的 分 配 是 根据 Block 的 分 布 决定 的 ， 任 务 往往 会 被 分 配 到 拥有 Block 的 节点 上 ， 因 此 getLocal () 就 能 找到 所 需 的 Block; 但 是 在 资源 有 限 的 情况 下 ，Spark 会 将 任务 调度 到 
与 Block 不 同 的 节点 上 ， 这 样 就 必须 通过 getRemote () 获得 Block。 


getLocal () 首先 会 根据 block id 获得 相应 的 Blocklnfo 并 从 中 取出 该 Block 的 storage level， 根 据 storage level 的 不 同 getLocal () 又 进入 以 下 不 同 分 支 : 
level.useMemory==true: 从 Memory 中 取出 Block 并 返回 ， 若 没有 取 到 则 进入 分 支 2。 
level.useDisk= =true: 从 Disk 中 取出 Block。 
level.useMemory= -true: 将 Block 从 disk 中 读 出 并 写 入 内 存 以 便 下 次 使 用 时 直接 从 内 存 中 获得 ， 同 时 返回 该 Block。 
level.useMemory= =false: 将 Block 从 disk 中 读 出 并 返回 
level.useDiskz =false: 没有 在 本 地 找到 Block， 返 回 None。 
对 于 getRemote () 函数 ，getRemote () 首先 取得 该 Block 的 所 有 Location 信 息 ， 然 后 根据 Location 向 远 端 发 送 请 求 获取 Block， 只 要 有 一 个 远 端 返回 Block， 该 函数 就 返回 而 不 继续 发 送 请 求 。 
至 此 简单 介绍 了 BlockManager 类 中 的 get () 和 put () 函数 ,使 用 这 两 个 函数 外 部 类 可 以 轻易 地 存 取 Block 数 据 。 
4.Partition 转 化 为 Block 


在 Storage 模 块 中 所 有 的 操作 都 是 和 Block 相 关 的 ， 但 是 在 RDD 中 所 有 的 运算 都 是 基于 Partition 的 ， 那 么 Partition 是 如 何 与 Block 对 应 上 的 呢 ? 

RDD 计 算 的 核心 函数 是 iterator () 函数 。 用 CacheManager 中 的 getOrCompute () 函数 计算 RDD， 在 这 个 函数 中 Partition 和 Block 产 生 了 联系 : 
首先 根据 RDD id 和 partition index 构 造 出 block id (rdd xx xx) ， 接 着 从 BlockManager 中 取出 相应 的 Block。 

如 果 该 Block 存 在 ， 表 示 此 RDD 在 之 前 已 经 被 计算 过 和 存储 在 BlockManager 中 ， 因 此 取出 即 可 ， 无 需 再 重新 计算 。 

如 果 该 Block 不 存在 ， 则 需要 调用 RDD 的 computeOrReadCheckpoint () 函数 计算 出 新 的 Block， 并 将 其 人 存储 到 BlockManager 中 。 

需要 注意 的 是 ，Block 的 计算 和 存储 是 阻塞 的 ， 若 另 一 线程 也 需要 用 到 此 Block 则 需 等 到 该 线程 Block 的 loading 结 束 。 


这 样 RDD 的 Transformation、Action 就 和 Block 数 据 建 立 了 联系 ， 虽 然 抽 象 上 我 们 的 操作 是 在 Partition 层 面 上 进行 的 ， 但 是 Partition 最 终 还 是 被 映射 成 为 Block， 因 此 实际 上 我 们 的 所 有 操作 都 是 对 
Block 的 存 取 和 处 理 。 


16.3 shuffle 数据 持久 化 


Shuffle 是 MapReduce 框 架 中 的 一 个 特定 的 phase， 介 于 Map phase 和 Reduce phase 之 间 ， 当 Map 的 输出 结果 要 被 Reduce 使 用 时 ， 输 出 结果 需要 按 Kkey 哈 希 ， 并 且 分 发 到 每 一 个 Reducer， 这 个 过 程 
就 是 Shuffle。 由 于 Shuffle 涉 及 了 磁盘 的 读 写 和 网 络 的 传输 ， 因 此 Shuffle 性 能 的 高 低 直 接 影响 到 整个 程序 的 运行 效率 。 


图 16-4 清 晰 地 描述 了 MapReduce 算 法 的 整个 流程 ， 其 中 Shuffle phase 是 介 于 Map phase 和 Reduce phase 之 间 的 。 


Map Stage Reduce Stage 


Worker 1 


Worker 1 


Input 


Output 


Worker N Worker M 
图 16-4 Shuffle 流程 图 
概念 上 Shuffle 就 是 一 个 沟通 数据 连接 的 桥梁 ， 那 么 实际 上 Shuffle 这 一 部 分 是 如 何 实现 的 呢 ? 下 面 我 们 就 以 Spark 为 例 讲解 Shuffle 在 Spark 中 的 实现 。 


Shuffle write 写 出 去 的 数据 要 被 Reducer 使 用 ， 就 需要 Shuffle fetcher 将 所 需 的 数据 fetch 过 来 ， 这 里 的 fetch 包 括 本 地 和 远 端 ， 因 为 Shuffle 数 据 有 可 能 一 部 分 是 存储 在 本 地 的 。Spark 对 Shuffle 
fetcher 实 现 了 两 套 不 同 的 框架 : NIO 通 过 socket 连 接 去 fetch 数 据 ; OIO 通 过 netty server 去 fetch 数 据 。 分 别 对 应 的 类 是 BasicBlockFetcherlterator 和 NettyBlockFetcherlterator。 


在 Spark 0.7 和 更 早 的 版 本 中 ， 只 支持 BasicBlockFetcherlterator， 而 BasicBlockFetcher-lterator 在 Shuffle 数 据 量 比较 大 的 情况 下 performance 始 终 不 是 很 好 ， 无 法 充分 利用 网 络 带 宽 ， 为 了 解决 这 个 
问题 ， 添 加 了 新 的 Shuffle fetcher 试 图 取得 更 好 的 性 能 。 对 于 早期 Shuffle 性 能 的 评测 可 以 参看 Spark usergroup。 当 然 现 在 BasicBlockFetcherlterator 的 性 能 也 已 经 好 了 很 多 ， 使 用 时 可 以 对 这 两 种 实现 进 
行 测试 比较 。 


接 下 来 说 一 下 aggregator。 我 们 都 知道 在 Hadoop MapReduce 的 Shuffle 过 程 中 ，Shuffle fetch 过 来 的 数据 会 进行 merge sort， 使 得 相同 key 下 的 不 同 value 按 序 归并 到 一 起 供 Reducer 使 用 ， 该 过 程 
可 以 参看 图 16-5。 


Copy Sort Reduce 
lop Ex [ore lor Es 
map task 对 disk 进 行 partition . reduce task 
sort 和 sp 训 操 作 fetch — 
buffer in " 


memory 


; : 
"merge | 
on disk į 

1 


partitions 


- 


"seus DLE reduces 
IM » 


Other maps 


图 16-5 Shufflesxt 4£ Il 
所 有 的 merge sort 都 是 在 磁盘 上 进行 的 ， 有 效 地 控制 了 内 人 存 的 使 用 ， 但 是 代价 是 更 多 的 磁盘 MO。 


那么 Spark 是 否 也 有 merge sort 呢 ， 还 是 以 别 的 方式 实现 ， 下 面 我 们 就 细 细 说 明 。 


首先 ， 虽然 Spark 属 于 MapReduce 体 系 ， 但 是 对 传统 MapReduce 算 法 进行 了 一 定 的 改变 。Spark 假 定 在 大 多 数 用 户 的 case 中 ，Shuffle 数 据 的 sort 不 是 必须 的 ， 如 word count， 强 制 地 进行 排序 只 会 使 
性 能 变 差 ， 因 此 Spark 并 不 在 Reducer 端 做 merge sort。 既 然 没有 merge sort 那 Spark 是 如 何 进行 Reduce 的 呢 ? 这 就 要 说 到 aggregator 了 。 


aggregator 本 质 上 是 一 个 hashmap， 它 是 以 map output 的 key 为 key， 以 任意 所 要 combine 的 类 型 为 value 的 hashmap。 当 我 们 在 做 word count reduce 计 算 count 值 时 ， 它 会 将 Shuffle fetch 到 的 每 
Za) 


一 个 key-value pair 更 新 或 是 插入 到 hashmap 中 ( 若 在 hashmap 中 没有 查找 到 ， 则 插入 其 中 ; 若 查 找到 则 更 新 value 值 ) 。 这 样 就 不 需要 预先 把 所 有 的 key-value 进 行 merge sort， 而 是 来 一 个 处 理 一 个 ， 
省 下 了 外 部 排序 这 一 步骤 。 但 同时 需要 注意 的 是 ，Reducer 的 内 存 必须 足以 存放 这 个 Partition 的 所 有 key 和 count 值 ， 因 此 对 内 存 有 一 定 的 要 求 。 


在 上 面 word count 的 例子 中 ， 因 为 value 会 不 断 地 更 新 ， 而 不 需要 将 其 全 部 记录 在 内 存 中 ， 因 此 内 人 存 的 使 用 还 是 比较 少 的 。 考 虑 一 下 如 果 是 group by key 这 样 的 操作 ，Reducer 需 要 得 到 key 对 应 的 所 
有 value。 在 Hadoop MapReduce 中 ， 由 于 有 了 merge sort， 因 此 给 予 Reducer 的 数据 已 经 是 group by key 了 ， 而 Spark 没 有 这 一 步 ， 因 此 需要 将 key 和 对 应 的 value 全 部 存放 在 hashmap 中 ， 并 将 value 合 
并 成 一 个 array。 可 以 想象 为 了 能 够 存放 所 有 数据 ， 用 户 必 须 确保 每 一 个 Partition 足 够 小 到 内 存 能 够 容纳 ， 这 对 于 内 存 是 一 个 非常 严峻 的 考验 。 因 此 ，Spark 文 档 中 建议 用 户 涉及 这 类 操作 时 尽量 增加 


Partition ， 也 就 是 增加 Mapper 和 Reducer 的 数量 。 


增加 Mapper 和 Reducer 的 数量 固然 可 以 减 小 Partition 的 大 小 ， 使 得 内 存 可 以 容纳 这 个 Partition。 但 是 我 们 在 Shuffle write 中 提 到 ，Bucket 和 对 应 于 Bucket 的 write handler 是 由 Mapper 和 Reducer 的 
数量 决定 的 ，Task 越 多 ，Bucket 就 会 增加 得 更 多 ， 由 此 带 来 write handler 所 需 的 Buffer 也 会 更 多 。 一 方面 我 们 为 了 减少 内 存 的 使 用 采取 了 增加 Task 数 量 的 策略 ; 另 一 方面 Task 数 量 增 多 又 会 带 来 Buffer 开 
销 更 大 的 问题 ， 因 此 陷入 了 内 存 使 用 的 两 难 境地 。 


为 了 减少 内 存 的 使 用 ， 只 能 将 aggregator 的 操作 从 内 存 移 到 磁盘 上 进行 ，Spark 社 区 也 意识 到 了 Spark 在 处 理 数据 规模 远 远 大 于 内 存 大 小 时 所 带 来 的 问题 。 因 此 提供 了 外 部 排序 的 实现 方案 ， 可 以 使 内 
存 的 使 用 量 显 著 地 减少 。 
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本 章 就 Storage 模 块 的 通信 层 和 存储 层 进行 了 介绍 。 通 信 层 中 简单 介绍 了 类 结构 和 组 成 以 及 类 在 通信 层 中 所 扮演 的 不 同 角 色 ， 还 有 不 同 角色 之 间 通 信 的 报 文 ， 同 时 简单 介绍 了 通信 层 的 启动 和 注册 细 
节 。 存 储 层 中 分 别 介绍 了 DiskStore 和 MemoryStore 中 对 于 Block 的 存 和 取 的 实现 代码 ， 同 时 分 析 了 BlockManager 中 put () 和 get () 接口 ， 最 后 简单 介绍 了 Spark RDD 中 的 Partition 与 BlockManager 
中 的 Block 之 间 的 关系 ， 以 及 如 何 交 互 存 取 Block。 


本 章 从 整体 上 分 析 了 Storage 模 块 的 实现 ， 但 并 未 就 具体 实现 做 非常 细节 的 分 析 ， 不 过 在 看 完 本 章 ， 对 存储 硬件 环境 和 Storage 模 块 有 一 个 整体 的 印象 以 后 再 去 分 析 细 节 的 实现 会 有 事半功倍 的 效果 。 
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以 知 松柏 之 茂 也 。 
一 一 《庄子 :让 王 》 
大 寄 季 节 到 了 ， 霜 雪 降 临 了 ， 这 时 候 更 能 显 出 松树 和 柏树 的 茂盛 。 


当今 社会 ， 流 传 着 各 种 大 数据 的 故事 ， 如 何 才 能 分 辨 真 伪 ? 在 大 塞 的 季节 ， 以 及 霜 雪 降临 之 时 ， 不 时 严 寒 ， 淡 定 地 应 对 困境 ， 利 用 好 大 数据 之 利器 ， 保 持 松 柏 一 样 诚 盛 的 势头 。 有 效 利用 监控 是 其 中 最 
好 的 方式 ， 有 了 监控 , 便 可 以 在 困境 到 来 之 时 及 时 响应 ， 将 损失 降 到 最 低 。 本 章 重点 讲解 Spark 相 关 的 监控 。 


17.1 Web 界 面 


Spark 框 架 会 给 每 一 个 SparkContext 启 动 一 个 默认 的 Web 界 面 ， 且 Web 界 面 的 默认 端口 是 4040， 该 界面 上 显示 了 关于 程序 运行 情况 的 有 用 信息 ， 这 些 信息 包括 : 
“Stages 和 Task 的 列表 ; 

: RDD 的 信息 统计 和 内 存 情况 ; 

* 环境 变量 ; 

. 正在 运行 的 Executors 的 相关 信息 。 

可 以 通过 浏览 器 访问 http://<driver 节 点 地 址 >:4040 进 入 该 界面 。 如 果 运 行 着 多 个 SparkContext， 则 端口 会 从 4040 顺 延 ， 如 4041、4042 等 。 


在 默认 情况 下 ， 这 些 信息 只 能 在 应 用 程序 运行 期 间 可 以 被 访问 。 如 果 在 程序 运行 结束 后 仍 需 要 访问 这 些 信息 ， 则 需 在 启动 应 用 程序 之 前 设置 spark.eventLog.enabled 为 true。 该 设置 使 得 Spark 将 Web 
界面 信息 编码 并 以 文件 的 形式 持久 化 。 


假设 当前 已 经 在 本 机 中 运行 Standalone Cluster 模 式 ， 输 入 http://127.0.0.1:8080， 将 会 看 到 如 图 17-1 所 示 的 界面 。 


Spa Spark Master at spark:/lubuntu:7077 


Workers: 1 

Cores: 4 Total, 0 Used 
Memory: 4.0 GB Total, 0.0 B Used 
Applications: 0 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 
Status: ALIVE 


State Cores Memory 
ALVE |4(0Used) — 40GB(00BUsed) 


图 17-1 监控 界面 图 


Driver 应 用 程序 默认 会 打开 4040 端 口 进行 http 监 听 ， 输 入 http://127.0.0.1:8080 可 以 看 到 如 图 17-2 所 示 应 用 程序 相关 的 详细 信息 。 


和 — Q [locilhost4040/stages/ 


13 map at ALS.scala:231 


Completed Stages (1) 


图 17-2 Application X 42 & 


点 击 Actwe Stage 中 的 任意 一 个 Stage，Web 页 面 显示 如 图 17-3 所 示 即 该 stage 的 详细 信息 。 


4» = (€ |D localhost:4040/stages/stage/?id- 1&attempt-0 


Spa 机 Stages | Storage Environment Executors SimpleCF Application application UI 


Details for Stage 1 


Total task time across all tasks: 30 s 
Input: 252.8 MB 
Shuffle write: 48.7 MB 


Summary Metrics for 8 Completed Tasks 

Metric Min 25th percentile 
Result serialization üme 0 ms 0 ms 

Duration 55s 55s 


Time spent fetching 0 ms 
task results 


Scheduler delay 9 ms 
Input 28.8 MB 
Shuffle Write 6.5 MB 


Aggregated Metrics by Executor 
! \ Shuffle — Shuffle Shuffle Spill Shuffle Spill 
ID Address 'ime | asks ash input Read Write (Memory) (Disk) 


localhost CANNOT FIND 0 j 2528 00B 48.7 MB 0.0B 0.0 B 
ADDRESS MB 


图 17-3 Stage 状态 信息 


17.2 Spark UI 历史 监控 
通过 Spark UI 监控 日 志 信 息 ， 能 够 更 直观 地 查询 任务 情况 ， 如 内 存 占用 、 响 应 时 间 、 完 成 情况 等 。 


17.2.1 使 用 spark-server 的 原因 


Spark 的 独立 模式 也 有 自己 的 UI 管理 界面 ， 在 Spark Application 运 行 期 间 ，spark 会 提供 一 个 WebUl 界 面 来 显示 Spark 的 运行 情况 ;但 是 这 种 显示 是 有 条 件 的 ， 在 Spark 和 运行 期 间 ， 这 个 界面 会 显示 相关 
的 信息 ， 一 旦 该 Application 运 行 结束 (无论 是 以 成 功 的 方式 结束 ， 还 是 失败 的 方式 结束 ) ， 该 界面 就 会 结束 显示 。 但 是 ， 有 时 我 们 需要 查看 Spark 运 行 的 历史 情况 ，spark-history-server 就 是 为 了 应 对 此 类 


\ 一 /一 


需求 的 ， 可 以 通过 配置 文件 ， 在 Application 运 行 的 过 程 中 记录 下 日 志 信 息 ， 并 将 该 日 志 信息 保存 在 磁盘 或 HDFs 中 ， 在 Application 运 行 结 束 以 后 ， 我 们 可 以 再 次 查看 Application 运 行 中 的 信息 。 


17.2.2 配置 spark-server 
当 Spark 运 行 在 集群 ， 如 YARN 或 者 Mesos 中 ，spark-history-server 仍 然 可 以 满足 我 们 的 需求 。 


默认 配置 的 方式 启动 spark-history-server: 


cd $SPARK HOME/sbin 
./start-history-server.sh 


在 启用 spark-history-server 时 ， 需 要 指定 日 志 信 息 保 存 的 目录 位 置 ， 且 这 个 目录 已 经 被 提前 创建 ， 否 则 运行 start-history-server 会 报 如 下 错误 : 


starting org.apache.spark.deploy.history.HistoryServer, logging to /home/spark/software/source/compile/deploy spark/sbin/http://www.hzcourse.com/resource/readBook?path-/openres 


failed to launch org.apache.spark.deploy.history.HistoryServer: 
at org.apache.spark.deploy.history.FsHistoryProvider.«init» (FsHistoryPr 


ovider.scala:44) 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/... 6 more 


日 志 信 息 的 保存 目录 可 以 通过 spark-defaults.conf 文 件 中 的 spark.history.fs.logDirectory 参 数 来 指定 ， 也 可 以 通过 在 启动 脚本 后 输入 参数 来 指定 ， 例 如 : 


./start-history-server.sh hdfs://localhost:9000/sparkLogs 


在 启动 完成 之 后 ， 我 们 就 可 以 通过 浏览 器 访问 该 服务 。spark-history-server 服 务 的 默认 端口 号 是 : 18080， 我 们 在 浏览 器 中 输入 : http://localhost:18080, 


在 默认 情况 下 ， 界 面 的 显示 信息 是 空 的 ， 执 行 几 次 操作 之 后 ， 显 示 出 我 们 曾经 操作 过 的 Application 运 行 信息 ， 可 以 点 开 任意 一 个 ， 查 看 信息 ， 如 图 17-4 所 示 。 更 多 详情 ， 可 以 点 击 AppName (以 
org.apache.spark.repl.Main 为 例 ) ， 显 示 如 图 17-5 所 示 的 Stage 信 息 。 


& localhost:s666 p.e LA 


Spa History Server 


Event Log Location: hdfs://localhost:3000/sparkLogs 
Showing 3/8 Completed Applications 


App Name Started | Completed Duration | Spark User |Log Directory | Last Updated 

Spark shell 2014/10/16 15:46:25 2014/10/16 15:48:52 |25min leli spark-shell-1413445583718 | 2014/10/16 15:48:53 
Spark shell 2014/10/16 15:43:26 — 2014/10/16 15:44:20 ali spark-shel-1413445404182 2014106 15:44:22 
org.apache.spark.repl.Main 2014/10/15 14:52:37 |2014/10/15 14:54:10 el org.apache.sparkreplmain-1413355957176 ^ 2014/10/15 14:54:11 


图 17-4 Spark History Jk Æ 
下 面 是 spark-history-server 相 关 的 参数 配置 。 
1) 以 下 配置 在 spark-en.sh 中 : 
. SPARK_DAEMON_MEMORY: history-setrvet 允 许 使 用 的 内 存 大 小 ， 上 默认 值 : 512MB。 
. SPARK_DAEMON_JAVA_OPTS: history-servet 的 JVM 选 项 ， 上 默认 值 : None. 
- SPARK_PUBLIC_DNS: history-servet 的 公 网 地 址 ， 如 果 不 设置 ， 可 以 用 内 网 地 址 来 访问 ， 默 认 值 : None. 
- SPARK_HISTORY_OPTS: history-server 的 属性 设置 ， 默 认 值 : None 属 性 如 下 。 
* Spatk.histoty.updateIntetval: history-servet 更 新 日 志 信 息 的 间隔 时 间 ， 默 认 值 ;: 10 秒 。 
` spark.history.retainedApplications: 保存 Application 历 史记 录 数 ， 如 果 超 出 这 个 数 ， 旧 的 应 用 程序 的 日 志 信 息 就 会 被 删除 ， 默 认 值 : 50。 
- spark.history.ui.port: histoty-setver Web 端 口号 ， 黑 认 值 : 18080。 
* spark.history.kerberos.enabled: 是 否 允 许 Kerberos 方 式 访问 history-servetr， 对 于 持久 化 在 HDFS 上 是 有 用 的 ， 如 果 设 置 为 tue， 则 需 设 置 下 面 两 个 属性 ， 默 认 值 : false. 
* spark.history.kerberos.principal: 用 于 history-setrvet 的 Ketberos 主 体 名 称 ， 默 认 值 : None. 
* spatk.histoty.ketbetos.keytab: 用 于 设置 HistorySetvet 的 ketbetos keytab 文 件 位 置 ， 默 认 值 : None. 


* spark.history.ui.acls.enable: 授权 用 户 查看 应 用 程序 信息 时 是 否 检 查 acl。 如 果 启 用 ， 只 有 应 用 程序 所 有 者 和 spatk.ui.view.acls 指 定 的 用 户 可 以 查看 应 用 程序 信息 ; 否则 ， 不 做 任何 检查 ， 默 认 值 : false. 


Storage Environment Executors org.apache.spark.repl.main-1413355957176 application UI 


Spark Stages 


scheduling Mode: FIFO 
Active Stages: 0 
Completed Stages: 1 
Failed Stages: 0 


Active Stages (0) 


Stage ld Description Tasks: Succeeded/Total Shuffle Read Shuffle Write 


Completed Stages (1) 


Stage ld Description Submitted Duration Tasks: Succeeded/Total Shuffle Read Shuffle Write 


0 count at «console»:20 2014/10/15 14:54:02 85 ms 


Failed Stages (0) 


Stage Id Description Duration Tasks: Succeeded/Total Shuffle Read Shuffle Write Failure Reason 


图 17-5 Spark Stages 状 态 
2) 以 下 设置 在 spark-default.conf 中 : 
` spark.eventLog.enabled: 是 否 记 录 Spatk 事 件 ， 用 于 应 用 程序 在 完成 后 重 构 WebUI， 上 默认 值 : falses 
` spark.eventLog.dir: 保存 日 志 相 关 信 息 的 路 径 ， 可 以 是 hdfs: // 开 头 的 HDFS 路 径 ， 也 可 以 是 fle: // 开 头 的 本 地 路 径 ， 都 需要 提前 创建 ， 默 认 值 : fle: ///tmp/spatk-events。 
` spark.eventLog.compress: 是 否 压 缩 记录 Spatk 事 件 ， 前 提 是 spatk.eventLog.enabled 为 ttue， 默 认 值 : snappy。 


3) 在 测试 过 程 中 的 配置 如 下 : 


#spark-defaults.conf 
spark.eventLog.enabled true 

spark.eventLog.dir hdfs:// localhost:9000/ sparkLogs 
Sspark.eventLog.compress true 

fspark-env.sh 

export SPARK HISTORY OPTS-"-Dspark.history.ui.port-6666 -Dspark.history. 


U 


retainedApplications-3 -Dspark.history.fs.logDirectory-hdfs:// localhost:9000/ 
SparkLogs" 


* spark.history.ui.port- 6666 调整 WebUI 访 问 的 端口 号 为 6666。 


* spark.history.fs.logDirectory-hdfs: //localhost: 9000/sparkLogs 配置 了 该 属性 后 ， 在 start-histoty-setvet.sh 时 就 无 需 再 显示 指定 路 径 。 


* spatk.history.retainedApplications—-3 指定 保存 Application 历 史记 录 的 个 数 ， 如 果 超 过 这 个 值 ， 旧 的 应 用 程序 信息 将 被 删除 。 


. driver 在 SparkContext 使 用 stop () 方法 后 才 将 完整 的 信息 提交 到 指定 的 目录 ， 如 果 不 使 用 stop () 方法 ， 即 使 在 指定 目录 中 产生 该 应 用 程序 的 目录 ，history-server 也 将 不 会 加 载 该 应 用 程序 的 运行 信息 


所 以 如 果 直 接 使 用 Spatk 1.1.0 源 代码 /examples/stc/main/scala/LocalPi.scala， 就 无 法 显示 其 应 用 程序 ， 在 最 后 加 上 一 行 sc.stop () 后 ， 就 可 以 显示 。 


17.3 监控 工具 


17.3.1 MetricsT E 


Metrics 工 具 是 指标 度量 工具 之 一 ， 在 系统 设计 中 ， 测 量 模块 是 不 可 或 缺 的 组 成 部 分 。 通 过 观察 这 些 测量 数据 来 感知 系统 的 运行 情况 。 
在 Spark 中 ， 测 量 模块 由 MetricsSystem 担 任 ，MetricsSystem 中 有 三 个 重要 的 概念 ， 分 述 如 下 : 
“ instance 表 示 谁 在 使 用 MetricsSystem， 目 前 已 知 的 有 Master、Worker、Executor 和 Client Dtivet 会 创建 MetticsSystem 用 以 测量 ; 
“soutce 表 示 数 据 源 ， 即 从 哪里 获取 数据 ; 
“sinks 表 示 数 据 目 的 地 ， 即 将 从 source 获 取 的 数据 发 送 到 哪 。 
Spark 目 前 支持 将 测量 数据 保存 或 友 送 到 如 下 目的 地 : 
- ConsoleSink 输 出 到 console; 
.CSVSink 定 期 保存 成 为 CSV 文 件 ; 
. JmxSink 注 册 到 JMX， 以 通过 JMXConsole 来 查看 ; 
: MetricsServlet 在 Spark UI 中 添加 MetticsSetvlet 用 以 查看 Task 运 行 时 的 测量 数据 ; 
GraphiteSink 发 送 给 Graphite 以 对 整个 系统 (不 仅仅 包括 Spatk) 进行 监控 。 
下 面 从 MetricsSystem 的 创建 和 数据 源 的 添加 来 跟踪 一 下 源码 。 
(1) 初始 化 过 程 
MetricsSystem 依 赖 于 由 codahale 提 供 的 第 三 方 库 Metrics， 可 以 在 metrics.codahale.com 找 到 更 为 详细 的 介绍 。 
以 Driver Application 为 例 ，Driver Application 首 先 会 初始 化 SparkContext， 在 SparkContext 的 初始 化 过 程 中 就 会 创建 MetricsSystem ， 有 具体 调用 关系 如 下 : 


注册 数据 源 ， 继 续 以 SparkContext 为 例 : 


new DAGSchedulerSource (this.dagScheduler, this) 
new BlockManagerSource (SparkEnv.get.blockManager, 


private val dagSchedulerSource 
private val blockManagerSource 
this) 
private def initDriverMetrics() { 
SparkEnv.get.metricsSystem.registerSource (dagSchedulerSource) 
SparkEnv.get.metricsSystem.registerSource (blockManagerSource) 
} 


initDriverMetrics () 


(2) 数据 读 取 


数据 读 取 由 Sink 完 成 ， 在 Spark 中 创建 的 Sink 子 类 如 图 17-6 所 示 。 


JmxSink 


MetricsServlet CsvSink ConsoleSink GraphiteSink 


图 17-6 ”在 Spatk 中 创建 的 Sink 子 类 
读 取 最 新 的 数据 ， 以 CsvSink 为 例 ， 最 主要 的 就 是 创建 CsvReporter， 启 动 之 后 会 定期 更 新 最 近 的 数据 到 console。 不 同类 型 的 Sink 所 使 用 的 Reporter 是 不 一 样 的 。 


Spark 中 关于 Metrics 子 系统 的 配置 文件 详 见 conf/metrics.properties。 上 默认 的 Sink 是 MetricsServlet， 在 任务 提交 执行 之 后 ， 输 入 http://127.0.0.1:4040/metrics/json 会 得 到 以 JSON 格 式 保存 的 


Metrics 信 息 。 


1) Metrics 可 选 的 配置 信息 。Jmx 通 过 类 名 对 所 有 的 实例 起 作用 : 


*.sink.jmx.class-org.apache.spark.metrics.sink.JmxSink 


2) Consolesink 通 过 类 名 对 所 有 的 实例 起 作用 : 


*.sink.console.class-org.apache.spark.metrics.sink.ConsoleSink 


3) ConsoleSink 的 检测 间隔 : 


*.sink.console.period-10 
*.sink.console.unit-seconds 


4) Master 实 例 重新 配置 检测 间隔 : 


master.sink.console.period=15 
master.sink.console.unit=seconds 


5) CsvSink 通 过 类 名 对 所 有 的 实例 起 作用 : 


*.sink.csv.class-org.apache.spark.metrics.sink.CsvSink 


6) CsvSink 的 检测 间隔 : 


*.sink.csv.period-1 
*.sink.csv.unit-minutes 


7) CsvSink 的 检测 存放 目录 : 


*.sink.csv.directory-/tmp/ 


8) Worker 实 例 重新 配置 检测 间隔 : 


worker.sink.csv.period-10 
worker.sink.csv.unit-«minutes 


9) 对 Master、Worker、Driver 和 Executor 实 例 配置 jvm source: 


master.source.jvm.class-org.apache.spark.metrics.source.JvmSource 
worker.source.jvm.class-org.apache.spark.metrics.source.JvmSource 
driver.source.jvm.class-org.apache.spark.metrics.source.JvmSource 
executor.source.jvm.class-org.apache.spark.metrics.source.JvmSource 


10) 测试 中 的 详细 配置 如 图 17-7 所 示 。 
O5 *.sink.csv.directory 二 /home/eli/spakLog 这 个 目录 必须 存在 (手动 创建 ) ， 如 果 不 存在 则 会 报错 。 目 前 还 不 支持 目录 设 为 hdfs 目 录 。 
生成 文件 截图 如 图 17-8 所 示 。 

17.3.2 ”其 他 工具 


一 些 外 部 工具 可 以 帮助 分 析 Spark 作 业 的 性 能 。 


集群 监控 工具 ， 如 Ganglia 等 ， 提 供 了 可 以 帮助 查看 集群 使 用 率 和 资源 尊 贷 的 视图 。 在 Ganglia 中 可 以 迅速 确定 是 否 遇 到 了 磁盘 瓶颈 、 网 络 瓶 贷 、CPU 尊 有 颈 等 。 


LL 


instances 


Enable Csvsink for a 
.sink.csv.classsorg.apache.spark.metrics.sink.Csv 


Polling period for CsvSinkl 
.sink.csv.period-1 


.Sink.csv.unitsminutes 


Polling directory for CsvSink 
.sink.csv.directorysz/home/eli/sparkLog 


# Worker instance overlap polling period 
worker.sink.csv.periodz10 


worker.sink.csv.unitsminutes 


Enable ConsoleSink for all instances by class name 
K*.sink.ganglia.class = org.apache.spark.metrics.sink.GangliaSink 
',sink.ganglia.unit = seconds 
',sink.ganglia.period = 10 
.sink.ganglia.name = my cluster 
"sink.ganglia,.host = localhost 
.sink.ganglia.port = 8649 
',sink.ganglia.ttl = 1 
MW*.sink.gang.mode = unicast 
# Enable jvm source for instance master, worker, driver and executor 
master.source.jvm.classsorg.apache.spark.metrics.source.JvmSource 


Wworker.source.jvm.classzorg.apache.spark.metrics.source.JvmSource 
driver.source.jvm.classzorg.apache.spark.metrics.source.JvmSource 


executor.source.jvm.classsorg.apache.spark.metrics.source.JvmSource 


图 17-7  Metticsif 2g BG 3r 


^f^ eli@eli -/sparkLog 


jvm.non-heap.init.csv 

jvm.non-heap.max.csv 

jvm.non-heap.usage.csv 

jvm.non-heap.used.csv 
jvm.pools.Code-Cache.usage.csv 
jvm.pools.Compressed-Class-Space.usage.csv 
jvm.pools.Eden-Space.usage.csv 
jvm.pools.Metaspace.usage.csv 
jvm.pools.Survivor-Space.usage.csv 
jvm.pools.Tenured-Gen.usage.csv 
jvm.total.committed.csv 

jvm.total.init.csv 

jvm.total.max.csv 

jvm.total.used.csv 

Spark shell.BlockManager.disk.diskSpaceUsed MB.csv 
Spark shell.BlockManager.memory.maxMem MB.csv 
Spark shell.BlockManager.memory.memUsed MB.csv 
Spark shell.BlockManager.memory.remainingMem MB.cs 
Spark shell.DAGScheduler.]job.activeJobs.csv 
Spark shell.DAGScheduler.job.allJobs.csv 

Spark shell.DAGScheduler.stage.failedStages.csv 
Spark shell.DAGScheduler.stage.runningStages.csv 
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图 17-8 ”生成 文件 
操作 系统 中 常用 的 分 析 工 具 ， 如 dstat、iostat、iotop 等 。 这 些 工具 可 以 在 单 节 点 上 提供 细 粒 度 的 分 析 结 果 。 


JVM 附 带 的 工具 。 如 jstack 可 以 利用 stack traces，jmap 可 以 创建 heap-dumps，jstat 可 以 用 于 汇报 time-series statistics，jconsole 可 以 方便 地 监控 和 管理 Java 虚 拟 机 。 


本 章 主要 讲解 了 Spark UI 方面 的 监控 ,在 Spark UI 界面 上 可 以 了 解 Spark 应 用 程序 的 运行 情况 和 利用 资源 的 情况 ;spark-history 方 面 的 配置 可 以 帮助 我 们 了 解 已 经 运行 完 的 Spark 应 用 程序 的 情况 ; 
Metrics 测 量 模块 是 在 系统 设计 中 不 可 或 缺 的 组 成 部 分 。 通 过 观察 Metrics 测 量 数据 来 感知 系统 的 运行 情况 ， 帮 助 我 们 更 好 地 了 解 Spark 应 用 程序 的 运行 ， 并 且 有 利于 我 们 对 Spark 应 用 程序 的 改进 ， 使 Spark 
更 快 地 运行 ， 更 加 充分 地 利用 资源 。 


天 地 有 大 美 而 不 言 ， 四 时 有 明 法 而 不 议 ， 万 物 有 成 理 而 不 说 。 


天 地 有 伟大 的 造化 和 功德 而 不 言语 ， 春 夏秋 冬 四 季 有 分 明 的 规律 而 不 议论 ， 万 物 有 自然 形成 的 道理 而 不 解说 ， 办 任何 事 都 得 遵循 事物 的 发 展 规律 。 


大 数据 时 代 ， 如 何 才 能 按照 自然 规律 办 事情 ， 做 到 像 天 地 一 样 有 伟大 的 功德 ， 像 春 夏秋 冬 一 样 有 分 明 的 规律 ， 必 须 在 实践 中 逐步 对 性 能 进行 做 化。 而 有 时 候 ， 仅 仅 遵 照 规律 也 是 不 够 的 ， 还 需要 我 们 细 


微 的 调整 ， 才 能 达到 预期 的 平衡 。 


本 章 从 文件 的 优化 、 序 列 化 数据 、 缓 存 等 内 容 讲 起 ， 希 望 能 够 宽 一 斑 而 知 全 有 够 ， 起 到 引导 作用 。 


18.1 文件 的 优化 


18.1.1. 输入 采用 大 文件 


笔者 的 实验 数据 包含 1000 个 文件 ， 在 HDFS 中 共 占 用 了 1000 个 文件 块 ， 而 每 个 文件 都 是 2.3MB， 相 对 于 HDFS 块 默认 大 小 是 128MB 来 说 算是 比较 小 的 了 。 


在 SparkContext 中 需要 做 的 操作 如 下 : 


def textFile(path: String, minPartitions: Int = defaultMinPartitions): 
RDD[String] = ( 
hadoopFile (path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], 
minPartitions) 

.map (pair => pair. 2.toString) 

. setName (path) 


} 


在 HadoopRDD 中 的 操作 如 下 : 


val inputSplits = inputFormat.getSplits (jobConf, minPartitions) 
val array = new Array[Partition] (inputSplits.size) 


Spark 在 调用 textFile 处 理 数据 时 ，Map 阶 段 输入 的 文件 较 小 而 数量 众多 ， 就 会 产生 很 多 的 Map 任 务 ， 以 前 面 的 输入 为 例 ， 一 共产 生 了 1000 个 Map 任 务 。 每 次 新 的 Map 任 务 操作 都 会 造成 一 定 的 性 能 损 
失 。 针 对 上 述 2.2GB 大 小 的 数据 ， 在 实验 环境 中 运行 的 时 间 大 概 为 33 分 钟 。 


为 了 尽量 使 用 大 文件 的 数据 ， 笔 者 对 这 1000 个 文件 进行 了 一 次 预 处 理 ， 也 就 是 将 这 些 数 量 众多 的 小 文件 合并 成 大 一 些 的 文件 ， 最 终 将 它们 合并 成 一 个 大 小 为 2.2GB 的 大 文件 ， 然 后 再 以 这 个 大 文件 作为 
输入 ， 在 同样 的 环境 中 进行 测试 ， 运 行 时 间 仅 为 4 分 钟 。 


从 实验 结果 可 以 明显 地 看 出 二 者 在 执行 时 间 上 的 差别 非常 大 。 因 此 为 了 提高 性 能 ， 应 该 对 小 文件 做 一 些 合理 的 预 处 理 ， 变 小 为 大 ， 从 而 缩短 执行 的 时 间 。 不 仅 如 此 ， 合 并 前 的 众多 文件 在 HDFs 中 占用 了 
1000 个 块 ， 而 合并 后 的 文件 在 HDFS 中 只 占用 18 个 块 (128MB 为 一 块 ) ， 占 用 空间 也 相应 地 变 小 了 ， 可 谓 一 举 两 得 。 


另外 ， 如 果 不 对 小 文件 做 合并 的 预 处 理 ， 也 可 以 借用 Spark 中 的 CombineFilelnput-Format。 它 可 以 将 多 个 文件 打包 到 一 个 输入 单元 中 ， 从 而 每 次 执行 Map 操 作 就 会 处 理 更 多 的 数据 。 同 
时 ，CombineFileInputFormat 会 考虑 节点 和 集群 的 位 置信 息 ， 以 决定 哪些 文件 被 打包 到 一 个 单元 之 中 ， 所 以 使 用 CombineFileInputFormat 也 会 使 性 能 得 到 相应 提高 。 


Spark 中 的 textFile () 默认 是 FilelnputFormat 以 集群 配置 块 大 小 读 取 (本 例 为 128MB) 。 故 没有 提供 类 似 MR 的 CombineFilelnputFormat 接 口 。 若 要 实现 ， 需 修改 源码 编译 。 


val setInputPathsFunc = 
(jobConf: JobConf) => FilelInputFormat.setInputPaths (jobConf, path) 


18.1.2 ”lzo 压 缩 处 理 


如 下 是 笔者 在 学 习 过 程 中 处 理 lzo 压 缩 所 遇 到 的 一 些 问 题 。 


1. 使 用 lzo 压 缩 


(1) 安装 本 地 类 库 ， 以 Ubuntu 为 例 


sudo apt-get install liblzo2-de 


(2) 安装 hadoop-lzo 

要 注意 的 是 ， 以 上 两 步 需 要 在 所 有 可 能 启动 Spark Worker 的 机 器 上 执行 。 
(3) 配置 Spark 

主要 作 是 将 上 述 两 个 类 库 的 路 径 指 定 到 spark-env.sh 文 件 中 ， 分 别 是 : 


# 指定 1zo 本 地 类 库 目 录 
SPARK LIBRARY PATH=$SPARK LIBRARY PATH:/path/to/your/lzo/libs/native 


* 指定 hadoop-1zo.Jjazr 路 径 
SPARK CLASSPATH=$SPARK CLASSPATH:/path/to/your/hadoop-1lzo/java/libs/hadoop-lzo.jar 


2.lzo 压 缩 的 问题 


在 处 理 textFile 类 型 文件 时 ,会 遇 到 一 个 问题 ， 对 于 一 个 lzo 文 件 ， 只 能 启动 一 个 Map 任 务 ， 这 样 无 法 发 挥 HDFS 的 块 存储 的 优势 。 这 个 问题 的 一 种 解决 方案 是 将 textFile 构 建 为 equenceFile， 因 为 lzo 可 
以 对 sequenceFile 进 行 分 块 压缩 ， 但 转换 麻烦 且 在 相当 多 场景 里 不 现实 (如 我 们 要 处 理 大 量 日 志 ) 。 


3.lzo 索 引 


笔者 后 来 经 过 调研 ， 发 现 对 lzo 建 立 索 引 后 即 可 分 块 读 取 ， 具 体 建 立方 式 如 下 : 


# 本 地 进程 构建 索引 

hadoop jar /path/to/your/hadoop-lzo.jar 
com.hadoop.compression.lzo.LzoIndexer big file.lzo 

E MR 任 务 构建 索引 

hadoop jar /path/to/your/hadoop-lzo.jar 
com.hadoop.compression.lzo.DistributedLzoIndexer big file.lzo 


要 注意 的 是 ， 上 述 命令 中 big_file.lzo 默 认为 HDFS 上 的 路 径 ， 如 果 是 操作 本 地 文件 ， 要 使 用 file: // 前 经。 详细 介绍 请 参考 官方 文档 , 


经 过 以 上 设置 ， 在 MR 任务 、Hive 中 读 取 lzo 文 件 就 能 并 行 多 Map 人 处理 一 个 大 文件 了 ， 效 率 会 有 很 大 提升 。 


4.lzo 索 引 在 Spark 中 的 使 用 


但 是 在 Spark 中 使 用 SparkContext.textFile ("/path/to/file") 还 是 无 法 实现 多 Map 人 处理 ， 但 如 下 方式 可 以 多 Map 操 作 |zo 文 件 : 


import org.apache.hadoop.io. 
import com.hadoop.mapreduce. _ 
# 定义 RDD 
val data = sc.newAPIHadoopFile[LongWritable, Text, 
LzoTextInputFormat] ("/path/to/your/file.lzo") 


data.count () 


这 样 ， 在 Spark 中 也 能 多 Map 任 务 操 作 一 个 大 的 lzo 压 缩 文件 。 


18.1.3 “Cache 压缩 


RDD Cache 本 身 的 目的 是 追求 速度 ， 减 少 重 算 步 又。 但 往往 会 对 内 人 存 造成 负担 ， 因 此 缓存 压缩 也 是 性 能 优化 、 减 小 负担 的 一 部 分 。 下 面 主要 介绍 Spark 中 各 种 配置 对 压缩 的 影响 。 


1. 利 用 spark.rdd.compress 压 缩 


该 参数 决定 了 RDD Cache 的 过 程 中 ，RDD 数 据 在 序列 化 之 后 是 否 进一步 进行 压缩 再 存储 到 内 存 或 磁盘 上 。 当 然 是 为 了 进一步 减 小 Cache 数 据 的 尺寸 ， 对 于 Cache 在 磁盘 上 而 言 ， 绝 对 大 小 大 概 没有 太 大 
关系 ， 主 要 是 考虑 磁盘 的 |/O 带 宽 。 而 对 于 Cache 在 内 存 中 ， 主 要 就 是 考虑 尺寸 的 影响 ， 是 否 能 够 Cache 更 多 的 数据 ， 是 否 能 减 小 Cache 数 据 对 GCC 造 成 的 压力 等 。 


这 两 者 ， 前 者 通常 不 会 是 主要 问题 ， 尤 其 是 在 RDD Cache 本 身 的 目的 就 是 追求 速度 ， 减 少 重 算 步 骤 ， 用 I/O 换 CPU 的 情况 下 。 而 后 者 ，GC 问 题 当然 是 需要 考量 的 ,数据 量 小 ， 占 用 空间 少 ，GC 的 问题 
大 概 会 减轻 ， 但 是 是 否 真 的 需要 走 到 RDD Cache 压 缩 这 一 步 ， 或 许 用 其 他 方式 来 解决 可 能 更 加 有 效 。 


所 以 这 个 值 默 认 是 关闭 的 ， 但 是 如 果 在 磁盘 I/O 的 确 成 为 问题 或 者 GC 问 题 真 的 没有 其 他 更 好 的 解决 办 法 时 ， 可 以 考虑 启用 RDD 压 缩 。 


private val compressBroadcast - 
conf.getBoolean("spark.broadcast.compress", true) 
private val compressShuffle - 
conf.getBoolean("spark.shuffle.compress", true) 
private val compressRdds - 
conf.getBoolean("spark.rdd.compress", false) 
private val compressShuffleSpill = 
conf.getBoolean("spark.shuffle.spill.compress", true) 
private def shouldCompress (blockId: BlocklId): Boolean = { 
blockId match { 


case : ShuffleBlockId => compressShuffle 
case : BroadcastBlockId => compressBroadcast 
case : RDDBlockId => compressRdds 

case : TempBlockId => compressShuffleSpill 
case _ => false 


def wrapForCompression(blockId: Blockld, s: OutputStream): OutputStream - ( 
if (shouldCompress (blocklg)) 
compressionCodec.compressedOutputStream (s) 


S 


程序 根据 compressedOutputStream (s) 进行 压缩 。 


2. 利 用 spark.io.compression.codec 压 缩 


RDD Cache 和 Shuffle 数 据 压缩 所 采用 的 算法 Codec， 上 默认 值 曾经 是 使 用 LZF 作 为 默认 Codec， 最 近 因为 LZF 内 存 开销 的 问题 ， 默 认 的 Codec 已 经 改 为 Snappy。 
LZF 和 Snappy 相 比较 ， 前 者 压缩 率 比较 高 (当然 要 看 具体 数据 内 容 ， 通 常 要 高 20% 左 右 ) ， 但 是 除了 内 存 问 题 以 外 ，CPU 代 价 也 大 一 些 (大 概 也 差 20%~50%) 。 


用 于 Shuffle 数 据 的 场合 下 ， 内 存 方面 在 使 用 HashshuffleManager 时 有 可 能 有 为 问题 ， 因 为 如 果 Reduce 分 区 数量 巨大 ， 需 要 同时 打开 大 量 的 压缩 数据 流 用 于 写 文件 ， 进 而 在 压缩 算法 Codec 方 面 需要 
大 量 的 Buffer。 但 是 如 果 使 用 SortShuffleManager， 由 于 Shuffle 文 件数 量 大 大 减少 ， 不 会 产生 大 量 的 压缩 数据 流 ， 所 以 内 存 开销 大 概 不 会 成 为 主要 问题 。 


剩 下 的 就 是 CPU 和 压缩 率 的 权衡 取舍 ， 和 前 面 一 样 ， 取 决 于 CPU/ 网 络 / 磁 盘 的 能 力 和 负载 ， 笔 者 认为 CPU 通常 更 容易 成 为 瓶颈 。 对 于 RDD Cache 的 场合 来 说 ， 绝 大 多 数 场合 都 是 内 存 操作 或 者 本 地 
MO， 所 以 CPU 负载 的 问题 可 能 比 MO 的 问题 更 加 突出 ， 这 也 是 为 什么 spark.rdd.compress 本 身 默 认为 不 压缩 。 


val DEFAULT COMPRESSION CODEC = "snappy" 


createCodec (conf, conf.get("spark.io.compression.codec", 
DEFAULT COMPRESSION CODEC)) 


18.22 序列 化 数据 

在 所 有 的 分 布 式 应 用 中 ， 序 列 化 在 性 能 调 优 这 部 分 中 扮演 着 重要 的 角色 。 序 列 化 速度 慢 或 者 占用 很 大 空间 都 会 大 大 降低 计算 速度 。 通 常 ， 数 据 序列 化 是 数据 计算 的 第 一 步 。Spark 致 力 于 在 便利 和 性 能 
之 间 找 到 更 好 的 解决 方法 ，Spark 在 操作 中 人 允许 使 用 Java 的 数据 类 型 。 同 时 ，Spark 提 供 了 以 下 两 种 序列 化 类 库 : 

:Java 序列 化 : Java 的 ObjectOutputStteam 框 架 作为 Spatk 序 列 化 默认 的 序列 化 方法 ， 只 需要 实现 javaio.Setializable 接 口 就 可 以 直接 使 用 。Java 序 列 化 很 灵活 ， 但 是 速度 很 慢 ， 同 时 序列 化 的 格式 也 很 大 。 


: Ktyo 序 列 化 : Spa 永 也 可 以 支持 Kryo 的 序列 化 库 (version 2) ，Ktryo 序 列 化 能 够 更 快 地 序列 化 数据 ， 而 且 比 Java 序 列 化 更 加 高 效 ， 通 常 序列 化 速度 为 Java 序 列 化 的 10 们 。 但 是 Ktyo 序 列 化 并 不 支持 所 有 的 
Setializable 类 型 ， 并 且 使 用 Kryo 序 列 化 ， 需 要 注册 后 才能 使 用 。 


在 初始 化 任务 时 ， 你 需要 在 配置 文件 中 配置 参数 来 使 用 Kryo 序 列 化 ， 代 码 中 的 配置 为 conf.set ("spark.serializer", "org.apache.spark.serializer.KryoSerializer") 。 这 个 设置 配置 使 用 的 序列 化 器 不 
仅 影 响 数据 的 Shuffling 过 程 ， 而 且 会 影响 序列 化 的 RDD 固 化 到 磁盘 。 用 户 需要 注册 自己 的 需求 ， 这 只 是 不 把 Kryo 序 列 化 作为 默认 序列 化 的 一 个 原因 ， 但 是 我 们 推荐 应 用 在 网 络 要 求 较 高 的 应 用 中 。 


使 用 Kryo 序 列 化 定义 自己 的 类 ， 你 需要 继承 org.apache.spark.serializer.KryoRegistrator 并 且 在 配置 中 设置 spark.kryo.registrator 指 向 此 类 ， 如 下 : 


import com.esotericsoftware.kryo.Kryo 
import org.apache.spark.serializer.KryoRegistrator 
// 定义 自己 的 Kryo 序 列 化 类 
class MyRegistrator extends KryoRegistrator { 
override def registerClasses(kryo: Kryo) { 
kryo.register (classOf [MyClass1]) 
kryo.register (classOf [MyClass2]) 


val conf = new SparkConf().setMaster (http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15534/OEBPS/Text/...) . setAppName (http: / /www.hzcourse 
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") 

// 配置 指向 自己 定义 的 Kryo 类 
conf.set("spark.kryo.registrator", "mypackage.MyRegistrator") 
val sc = new SparkContext (conf) 


另外 ， 如 果 对 象 很 大 ， 则 可 以 通过 增加 配置 中 spark.kryoserializer.buffer.mb 参 数 的 值 来 保存 对 象 (spark.kryoserializer.buffer.mbBS NA 8732) 。 


183 缓存 


spark.executor.memory 决 定 了 每 个 EXxecutor 可 用 内 存 的 大 小 ， 而 spark.storage.memoryFraction 则 决定 了 在 这 部 分 内 存 中 有 多 少 可 以 用 于 Memory Store 管理 RDD Cache 数 据 ， 剩 下 的 内 存 用 来 保 
证 任务 运行 时 各 种 其 他 内 存 空间 的 需要 。 


spark.executor.memory 默 认 值 为 0.6， 官 方 文档 建议 这 个 比值 不 要 超过 JVM Old Gen 区 域 的 比值 。 这 也 很 容易 理解 ， 因 为 RDD Cache 数 据 通常 都 是 长 期 驻 留 内 存 的 ， 理 论 上 也 就 是 说 最 终 会 被 转移 到 
Old Gen 区 域 (如 果 该 RDD 还 没有 被 删除 ) ， 如 果 这 部 分 数据 允许 的 尺寸 太 大 ， 势 必 把 Old Gen 区 域 占 满 ， 造 成 频繁 的 Full GC, 


如 何 调整 这 个 比值 ， 取 决 于 你 的 应 用 对 数据 的 使 用 模式 和 数据 的 规模 ， 粗 略 地 来 说 ， 如 果 频 繁 发 生 Full GC， 可 以 考虑 降低 这 个 比值 ， 这 样 RDD Cache 可 用 的 内 存 空间 减少 ( 剩 下 的 部 分 Cache 数 据 就 
需要 通过 Disk Store 写 到 磁盘 上 ) ， 会 带 来 一 定 的 性 能 损失 ， 但 是 这 会 腾 出 更 多 的 内 存 空间 用 于 执行 任务 ， 减 少 Full GC 发 生 的 次 数 ， 反 而 可 能 改善 程序 运行 的 整体 性 能 。 


当 发 现 JVM 的 垃圾 收集 经 常 消耗 较 高 或 耗 尽 内 存 时 ， 以 防 任务 运行 缓慢 ， 可 以 设置 此 值 降低 内 存 消耗 。 如 果 想 改变 此 值 为 50%， 可 以 通过 在 sparkConf 中 设置 
conf.set ("spark.storage.memoryFraction", "0.5") 完成 。 结 合 使 用 序列 化 缓存 ， 使 用 一 个 较 小 的 缓存 应 足以 减轻 大 多 数 垃圾 收集 的 问题 。 


184 ”共享 变量 
使 用 SparkContext 中 的 广播 可 以 极 大 地 减少 每 个 序列 化 任务 的 大 小 以 及 在 集群 中 启动 一 个 Job 的 代价 。 如 果 你 的 任务 中 使 用 了 Driver program 的 大 型 对 象 (如 一 个 静态 的 查找 表 ) ， 那 就 可 以 考虑 将 这 
个 变量 进行 广播 。Spark 打 印 了 Master 上 每 一 个 任务 的 序列 化 大 小 ， 可 以 通过 这 个 来 确定 任务 是 否 过 大 。 通 常 ， 若 任务 比 20KB 大 就 值得 进行 优化 。 


spark 的 第 二 个 抽象 ， 是 并 行 计 算 中 使 用 的 共享 变量 。 一 般 来 说 ， 当 一 个 函数 被 传递 给 Spark 操 作 (如 Map 和 Reduce) ， 通 常 是 在 集群 节点 上 运行 ， 在 函数 中 使 用 到 的 所 有 变量 ， 都 做 分 别 拷贝 ， 供 函 
数 操作 ， 而 不 会 互相 影响 。 这 些 变量 会 被 拷贝 到 每 一 台 机 器 ， 而 在 远程 机 器 上 ， 对 变量 的 所 有 更 新 都 不 会 被 传播 回 Driver 程 序 ， 因 此 ， 这 些 变量 都 不 是 共享 的 。 然 而 有 时 候 ， 我 们 需要 在 任务 中 能 够 共享 变 
量 ,或 者 在 任务 与 驱动 程序 之 间 共 享 。 Spark 支 持 以 下 两 种 类 型 的 共享 变量 : 


. 广播 变量 ; 可 以 在 内 存 的 所 有 节点 中 被 访问 ， 用 于 缓存 变量 (RI) 。 


. 累加 器 : 只 能 用 来 做 加 法 的 变量 ， 如 计数 和 求 和 。 


184.1 “广播 变量 


广播 变量 允许 程序 员 保 留 一 个 只 读 的 变量 ， 缓 存在 每 一 台 机 器 上 ， 而 非 每 个 任务 保存 一 份 拷贝 。 它 们 可 以 使 用 ， 如 给 每 个 节点 一 个 大 的 输入 数据 集 ， 且 以 一 种 高 效 的 方式 。Spark 也 会 尝试 使 用 一 种 高 
效 的 广播 算法 ， 来 减少 沟通 的 损耗 。 


广播 变量 是 通过 调用 SparkContext.broadcast (v) 方法 从 变量 V 创 建 的 。 这 个 广播 变量 是 一 个 v 的 分 装 器 ， 它 的 值 可 以 通过 调用 value 方 法 获得 。 如 下 的 解释 器 模块 展示 了 如 何 应 用 : 


scala> val broadcastVar = sc.broadcast (Array (1, 2, 3)) 
broadcastVar: spark.Broadcast[Array[Int]] = 

Spark.Broadcast (b5c40191-a864-4c7d-b9bf-887e1a4e7877c) 
Scala» broadcastVar.value 

res0: Array[Int] = Array(1, 2, 3) 


在 广播 变量 被 创建 后 ， 它 能 在 集群 运行 的 任何 函数 上 ， 被 取代 v 值 进行 调用 ， 从 而 v 值 不 需要 被 再 次 传递 到 这 些 节点 上 。 另 外 ， 对 象 v 不 能 在 被 广播 后 修改 ， 因 为 它 是 只 读 的 ， 从 而 保证 所 有 节点 的 变量 收 
到 的 都 是 一 模 一 样 的 。 


18.4.2 HIS 


累加 器 是 只 能 通过 组 合 操 作 “ 加 ”起 来 的 变量 ， 可 以 高 效 地 被 并 行 支持 。 它 们 可 以 用 来 实现 计数 器 (如 同 MapReduce 中 ) 与 求 和 。spark 原 生 支 持 Int 和 Double 类 型 的 计数 器 ， 程 序 员 可 以 添加 新 的 类 


型 。 
计数 器 可 以 通过 调用 SparkContext.accumulator (v) 方法 来 创建 。 运 行 在 集群 上 的 任务 可 以 使 用 + = 来 加 值 。 然 而 ，Driver 程 序 不 能 读 取 计数 器 的 值 ， 当 需要 读 取 值 的 时 候 ， 它 可 以 使 用 .value 方 法 。 
如 下 的 解释 器 展示 了 如 何 利用 累加 器 ， 将 一 个 数组 中 的 所 有 元 素 相 加 : 
Scala» val accum = sc.accumulator (0) 
accum: spark.Accumulator[Int] = 0 
Scala» sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x) 


10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s 


scala» accum.value 
res2: Int - 10 


18.5 ”流水线 优 化 


宽 依 赖 和 窄 依赖 的 根本 区 别 是 操作 是 否 存 在 Shuffle 操 作 。 


窄 依赖 指 父 RDD 的 每 一 个 分 区 最 多 被 一 个 子 RDD 的 分 区 所 用 ， 表 现 为 一 个 父 RDD 的 分 区 对 应 于 一 个 子 RDD 的 分 区 ， 以 及 两 个 父 RDD 的 分 区 对 应 于 一 个 子 RDD 的 分 区 
并 行 任务 的 Barrier) : 把 计算 Fork 到 每 个 分 区 ， 算 完 后 Join， 然 后 Fork/Join 下 一 个 


宽 依 赖 指 子 RDD 的 分 区 依赖 于 父 RDD 的 所 有 分 区 ， 这 是 因为 Shuffle 类 操作 。 
窒 依 赖 对 优化 很 有 利 。 逻 辑 上 ， 每 个 RDD 的 算 子 都 是 一 个 Fork/Join (此 Join 非 上 文 的 Join 算 子 ， 而 是 指 同步 多 个 
RDD 的 算 子 。 如 果 直 接 翻 译 到 物理 实现 ， 是 很 不 经 济 的 : 一 是 每 一 个 RDD (即使 是 中 间 结 果 ) 都 需要 物化 到 内 存 或 存储 中 ， 费 时 费 空间 ; 二 是 Join 作 为 全 局 的 Barrier， 是 很 昂贵 的 ， 会 被 最 慢 的 那个 节点 拖 
死 。 如 果子 RDD 的 分 区 到 父 RDD 的 分 区 是 窄 依赖 ， 就 可 以 实施 经 典 的 Fusion 优 化 ， 把 两 个 Fork/Join 合 为 一 个 ;如 果 连 续 的 变换 算 子 序列 都 是 窄 依赖 ， 就 可 以 把 很 多 个 Fork/Join 并 为 一 个 ， 不 但 减少 了 大 量 
| 成 若干 个 小 任务 ， 最 终 汇总 每 个 小 任务 结果 后 得 到 大 任务 结果 的 框架 。 例 如 ， 计 算 1+2+…+10000， 可 以 分 害 
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的 全 局 Barrier， 而 且 无 需 物化 很 多 中 间 结 果 RDD， 这 将 极 大 地 提升 性 能 。 
Qua Fotk/Join 框 架 是 Java 7 提供 的 一 个 用 于 并 行 执行 任务 的 框架 ， 是 一 个 把 大 任务 
成 10 个 子 任务 ， 每 个 子 任务 分 别 对 1000 个 数 进 行 求 和 ， 最 终 汇 总 这 10 个 子 任务 的 结果 。 


Fusion 优 化 : 融合 优化 ， 融 合 的 过 程 ( 也 称 为 合成 ) 是 将 两 个 或 两 个 以 上 不 同 的 实体 合并 成 一 个 新 的 整体 。 


SHEAEI 
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水 线 优化 等 。 优 化 是 一 个 长 远 且 复杂 的 过 程 ， 不 能 一 味 追求 某 一 方面 的 最 优 ， 只 有 达到 平衡 ， 才 可 以 


18.6 ”本章 小 结 
本 章 介 绍 了 一 些 常 用 的 性 能 调 优 方法 ， 包 括 文 件 的 优化 、 序 列 化 的 数据 、 缓 存 、 共 享 变量 、 流 
最 好 的 效果 。 
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第 19 章 ”Spark-jobserver 实 践 
一 《庄子 -省 膛 游 》 


小 知 不 及 大 知 ， 小 年 不 及 大 年 。 
“ 朝 菌 不 知 腹 闭 ， 屿 姑 不 知春 秋 ”， 早 晨 生 出 晚上 就 死 的 菌 和 夏天 出 生 秋天 就 死 的 昆 由 ， 因 为 年 寿 短 而 难以 经 历 和 知晓 更 多 的 事物 。 但 是 


知识 少 的 不 了 解 知识 多 的 ， 年 寿 短 的 不 了 解 年 寿 长 的 。 


， 可 以 


前 过 将 早晨 的 菌 和 夏天 的 昆 束 的 生命 经 验收 集 起 来 进行 分 享 ， 达 到 有 限 的 生命 知晓 无 限 经 验 的 目的 。 
无 疑 ，Spark-jobserver 就 是 致力 于 更 好 地 管理 Job 的 工具 ，Job 生 命 周 期 虽 短 ， 但 是 我 们 可 以 了 解 更 多 。 本 章 将 重点 讲解 什么 是 Spark-jobserver， 如 何 创建 Spark-jobserver 项 目 ， 以 及 典型 使 用 场景 。 


Spark-jobserver 是 什么 


Spark-jobserver 提 供 了 一 个 用 于 提交 和 管理 Apache Spark 作 业 (Job) 、Jar 文 件 和 作业 上 下 文 (SparkContext) 的 RESTful 接 口 。 


19.1 
该 项 目 位 于 git (https://github.com/spark-jobserver/spark-jobserver) ， 当 前 最 新 版 本 为 0.5.2 版 本 。Spark-jobserver 与 Spark 之 间 存 在 版 本 对 应 关系 ， 如 表 19-1 所 示 。 


表 19-1 Spark-jobsetrvet 与 Spatk 之 间 的 版 本 对 应 关系 


Spark-jobserver 版 本 Spark 版 本 
0.3.1 0.9.] 
0.4.0 1.0.2 


0.5.2 LES | 
Master 1.4.1 


主要 特性 如 下 : 
- Spark as a Service， 提 供 简 单 的 面向 Job 和 context 管 理 的 REST 接 口 。 
: 支持 Spark SQL 和 Hive Context. 
: 通过 Shito integration 提 供 LDAP 认 证 。 
- 通过 长 期 运行 的 Job Context 支 持 亚 秒 级 低 延 时 Job (作业 ) 。 
: 可 以 启动 或 停止 IDD 共享 的 Job Context 以 及 低 延 迟 作 业 ; 通过 重启 (restart) PE X EUR. 
- 可 以 通过 结束 Context 来 停止 运行 的 Job。 
. 分 割 Jar 上 传 步骤 ， 以 提高 Job 的 启动 。 
异步 和 同步 的 Job API， 其 中 同步 API 对 低 延 时 作业 非常 有 效 。 
- 支持 Standalone Spatk、Mesos 以 及 yafn-client。 
: Job 和 Jat 信 息 通 过 一 个 可 播 拔 的 DAO 接 口 来 持久 化 。 
. 被 命名 的 RDD 缓 存 ， 可 以 通过 该 名 称 获 取 RDD。 这 样 可 以 提高 作业 间 RDD 的 共享 和 重用 。 


- 支持 Scala 2.10 和 Scala 2.11。 


19.2 编译、 部 署 及 体验 
学 习 Spark-joberver， 针 对 不 同 版 本 的 Spark 进 行 编译 ， 同 时 根据 环境 进行 合理 部 署 ， 并 体验 逐步 改进 。 
19.2.1 编译 及 部 署 


1. 解 压 安装 包 


一 般 解 压 后 文件 的 执行 权限 问题 ， 请 勿 在 Windows 下 对 安装 包 进 行 解压 ， 请 在 Linux 下 完成 解压 工作 。 将 jobserver 安 装 包 上 传 至 集群 ， 路 径 可 以 先 选择 临时 目录 (此 时 并 不 是 jobserver 的 真正 安装 目 
x). 


2.SBT 生 成 spark-job-serverJjar 


1) 首先 进入 目录 ， 执 行 : 


cp local.sh.template settings.sh 


2) 其 次 需要 利用 vi 对 settings.sh 进 行 编辑 ，settings.sh 脚 本 如 下 : 


# Environment and deploy file 


* For use with bin/server deploy, bin/server package etc. 


DEPLOY HOSTS-"spark-master host" 
APP USER-hadoop 
APP GROUP-hadoop 


4 optional SSH Key to login to deploy server 


#SSH KEY-/path/to/keyfile.pem 


INSTALL DIR-/usr/server/jobserver 


LOG DIR-/data/l 


logs/jobserver 
PIDFILE-spark-jobserver.pid 


SPARK HOME-/path/to/spark 


ERSION-] 


.4 


ONF: DIR=$SPARK HOME/conf 


#Only needed for Mesos deploys 


#SPARK EXECUTOR URI-/home/spark/spark-1.4.1.tar.gz 


其 中 ， 需 要 注意 Hadoop 对 LOG _DIR 具 备 读 写 权限 。 


3) 进入 bin 目 录 ， 


执行 : 


bash -x server deploy.sh setting.sh 


这 个 步骤 需要 用 到 SBT， 因 此 系统 上 需要 预先 装 有 SBT。 因 SBT 构 建 过 程 中 ， 需 要 下 载 依赖 的 Jar 包 ， 网 络 环境 最 好 畅通 。 


注意 : 如 果 遇 到 如 下 类 似 错误 : 


一 md 


[info] 


^" —— m 9 


Spark Hive Jobs 


Exception in thread "Thread-5" Exception in thread "Thread-1" java.io.EOFException 


at 
at 
at 
at 
at 
at 


java.io.ObjectInputStream$BlockDataInputStream.peekByte(ObjectInputStream.java:2598) 
java.io.ObjectInputStream.readObjectOe(ObjectInputStream.java:1318) 
java.io.ObjectInputStream.readObject(ObjectInputStream.java:370) 
org.scalatest.tools.Framework$ScalaTestRunner$Skeleton$1$React.react(Framework.scala:t 
org.scalatest.tools.Framework$ScalaTestRunner$Skeleton$1.run(Framework.scala:934) 
java.lang.Thread.run(Thread.3java:745) 


java.io.EOFException 


at 
at 
at 
at 
at 
at 


java.io.ObjectInputStream$BlockDataInputStream.peekByte(ObjectInputStream.java:2598) 
java.io.ObjectInputStream.readObjecte(ObjectInputStream.java:1318) 
java.io.ObjectInputStream.readObject(ObjectInputStream.java:370) 
sbt.React.react(ForkTests.scala:114) 
sbt.ForkTests$$anonfun$mainTestTask$1$Acceptor$2$.run(ForkTests.scala:74) 
java.lang.Thread.run(Thread.java:745) 


则 在 执行 构建 命令 之 前 ， 先 在 jobserver 根 目录 下 执行 下 面 的 命令 : 


export JAVA OPTIONS-$ (cat .jvmopts) 


然后 再 进入 bin 目 录 执 行 即 可 。 


4) 第 三 步 执行 完成 后 ， 在 target 下 找到 spark-job-serverjar。 


3. 按 照 路 径 下 各 文件 配置 jobserver 


(1) 选取 jobserver 安 装 目录 


本 次 安装 选取 的 是 /usr/server/jobserver， 安 装 目录 下 需要 的 文件 如 图 19-1 所 示 (后 面 将 依次 讲解 各 个 文件 ) 。 


-rw-rw-r-- hadoop hadoop 2121 env. conf 
-rw-rw-r-- 1 hadoop hadoop 758 28 08:57 log4j-server.properties 
-rwxr-xr-x 1 hadoop hadoop 2213 Feb 28 09:06 server start.5sh 


-rwxr-xr-x 1 hadoop hadoop 507 Feb 2 j: server_stop. sh 
-rw-rw-r-- 1 hadoop hadoop 461 28 10:18 settings.s 


-rw-rw-r-- 1 hadoop hadoop 14663415 ):02 spark-job-server. 


图 19-1 jobservet 安 装 文件 


(2) env.conf 文 件 


首先 进入 目录 ， 执行 : 


cp local.conf env.conf 


然后 利用 vi 对 env.conf 进 行 编辑 ， 修 改 env.conf 配 置 文件 如 下 : 


# Spark Cluster / Job Server configuration 


spark { 


# spark.master will be passed to each job's JobContext 
#local mode 

#master = "local[4]" 

#standalone mode 

master = "spark:// hostname:7077" 


#mesos 


#master = "mesos:// vm28-hulk-pub:5050" 


4 predefined Spark contexts 


#yarn,only support yarn-client 
master = "yarn-client" 
4 Default # of CPUs for jobs to use for Spark standalone cluster 
job-number-cpus = 1 
jobserver { 
port = 8090 
jar-store-rootdir - /data/jobserver/jars 
jobdao = spark.jobserver.io.JobFileDAO 


filedao { 


rootdir = /data/spark-job-server/filedao/data 


my-low-latency-context { 


num-cpu-cores = 1 # Number of cores to allocate. Required. 
memory-per-node = 512m # Executor memory per node, -Xmx style eg 512m, 
1G, etc. 


} 


# define additional contexts here 


} 
universal context configuration. These settings can be overridden, 


see README .md 
context-settings { 


num-cpu-cores = 2 # Number of cores to allocate. Required. 
memory-per-node = 1g # Executor memory per node, -Xmx style eg 512m, 
#1G, etc. 


# in case spark distribution should be accessed from HDFS (as opposed to 


being installed on every mesos slave) 
spark.executor.uri = "hdfs:// namenode:8020/apps/spark/spark.tgz" 


string list, or a string separated by commas ',' 


# 
# uris of jars to be loaded into the classpath for this context. Uris is a 
# 


dependent-jar-uris = ["file:///some/path/present/in/each/mesos/slave/ 

somepackage.jar"] 

If you wish to pass any settings directly to the sparkConf as-is, add 
them here in passthrough, 

# such as hadoop connection settings that don't use the "spark." prefix 


passthrough { 


#es.nodes = "192.1.1.1" 
} 


# This needs to match SPARK HOME for cluster SparkContexts to be created 


successfully 


home = "/path/to/spark" 


P: 


N 
bu 
CO 


ote that you can use this file to define settings not only for job server, 


t for your Spark jobs as well. Spark job configuration merges with this 
nfiguration file as defaults. 


其 中 ，Master 的 配置 可 以 选择 本 地 模式 或 集群 模式 (standalone、YARN 或 者 Mesos) ， 不 同 的 配置 在 代码 中 已 经 给 出 。 将 该 env.conf 文 件 拷贝 至 /usr/server/jobserver/ 目 录 下 。 


(3) log4j-server.properties 


将 spark-jobserver-mater/config/ 目 录 下 的 log 作 -server.properties 拷 由 至 jobserver 的 部 署 目 录 。 


(4) server start.sh 和 server_ stop.sh 


将 spark-jobserver-matervbin/ 目 录 下 的 server start.shfüserver stop.sh 拷 贝 至 jobserver 的 部 署 目录 。 注 意 ， 如 果 是 64 位 机 器 ， 则 


4GB， 因 此 还 需要 对 server start.sh 进 行 修改 。 将 server start.sh 中 19 行 处 的 -Xmx5g 配 置 修改 成 4g 及 以 下 。 


(5) settings.sh 


将 spark-jobserver-matervconfig/ 目 录 下 的 settings.sh 拷 贝 至 jobserver 的 部 署 目录 。 


(6) spark-job-server.jar 


将 spark-job-server.jar 拷 贝 至 /usr/server/jobserver/ 目 录 下 。 


4. 启 动 jo 


bserver 


N 


这 一 


步 到 此 为 止 即 可 。 如 果 是 32 位 机 器 ， 因 其 寻 址 空间 不 超过 


在 jobserver 的 部 署 目录 下 ， 执 行 bash server start.sh。 之 后 在 部 署 服务 器 上 能 访问 localhost: 8090， 至 此 jobserver 安 装 完成 并 成 功 启动 ! 


19.2.2 


体验 


经 过 19.2.1 节 ， 我 们 成 功 部 署 并 运行 了 jobserver。 接 下 来 ， 我 们 使 用 官方 提供 的 应 用 程序 ， 快 速 地 熟悉 jobserver 的 使 用 。 


1. 简 单 提交 Job 执 行 


这 里 我 们 直接 使 用 ob-server 的 test 包 进行 测试 : 


$ sbt job-server-tests/package 


http: //www.hzcourse.com/resource/readl 
[info] Compiling 5 Scala sources to /rooct/spark-jobserver/job-server-tests/target/classesht 
[info 
[info 


Done packaging. 


编译 完成 后 ， 将 打包 的 Jar 文 件 通过 REST 接 口上 传 。 提 交 Jar 的 命令 如 下 : 


$ curl --data-binary 80job-server-tests/target/job-server-tests-0.4.0.jar localhost: 8090/jars/test 


OK 


查看 提交 的 Jar: 


$ curl localhost:8090/jars/ 


"test": "2014-10-22T115:15:04.826408:00" 


} 


提交 Job 一 一 提交 的 appName 为 test，class 为 spark.jobserver.WordCountExample: 


Book?path-/openresources/teach ebook/uncompressed/15534/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 
tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/ 


Scurl-d "input.string-hellojobserver" 'localhost:8090/jobs?appName-test&classPath-spark.jobserver.WordCountl 


"status": "STARTED", 
"result": ( 


Example' 


Packaging /root/spark-jobserver/job-server-tests/target/job-server-tests-0.4.0.jar http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressec 


"jobId": "34ce0666-0148-46f7-8pbcf-a7al9b5608b2"， 
"Context": "eba36388-spark.jobserver.WordCountExample" 
) 
} 


通过 job-id 查 看 结果 和 配置 信息 : 


$ curl localhost:8090/jobs/34ce0666-0148-46f7-8bcf-a7al9b5608b2 
{ 


"status": "OK", 

"result": 4 
"opt: 1; 
"hello": 1, 
"server": 1 


} 


提交 一 个 同步 的 Job， 当 执行 命令 后 ，terminal 会 hang 住 ， 直 到 任务 执行 完毕 : 


$ curl -d "input.string = hello job server" 'localhost:8090/jobs?appName-test&classPath-spark.jobserver.WordCountExample'&sync-true 


"status": "OK", 


"result": { 
"Job" Ty 
"hello": 1, 


"Server": 1 


} 
在 Web UI 上 也 可 以 看 到 完成 的 任务 的 相应 信息 。 


2.pre-context 

观察 上 一 小 节 的 执行 过 程 ， 可 以 从 Spark 的 WebUl 中 看 到 ，jobserver 创 建 了 一 个 xx xx 的 spark-context， 同 时 申请 了 2core/4g 的 计算 资源 ， 任 务 执行 完毕 后 ， 释 放 该 资源 。 试 想 一 下 ， 如 果 在 较 大 并 
发 的 情况 下 ， 将 不 停 地 进行 spark-context 的 创建 和 销毁 ， 设 计 上 十 分 不 优雅 。jobserver 为 了 解决 这 个 问题 ， 提 供 了 共享 context， 用 户 可 以 预先 创建 一 个 context， 然 后 在 这 个 特定 的 context 下 执行 Job。 
下 例 是 预先 创建 一 个 叫做 test-context 的 Context。 


$ curl -d "" 'localhost:8090/contexts/test-context?num-cpu-cores-4&mem-per-node-512m' 
OK 


context 的 其 他 REST API 如 下 : 
: GET/contexts: 查询 所 有 预先 建立 好 的 context; 
- POST/contexts: 建立 新 的 context; 
: DELETE/contexts/: 删除 此 context， 停 止 运行 于 此 context 上 的 所 有 Job。 


接 下 来 ， 在 这 个 context 上 执行 Job: 


Scurl -d "input.string = ab c a b see" 'localhost:8090/jobs?appName-test&classPath-spark.jobserver.WordCountExample&context-test-context&sync-true' 
{ 

"Sbatüs": "OK", 

"result": { 


nts 25 
"h: 2, 
MaMa 15 
"see": 1 


19.3 Spark-jobserver 程 序 实战 
本 节 按 照 一 个 实际 步骤 创建 一 个 Spark-jobserver 程 序 ， 包 括 添加 依赖 、 编 写 程序 ， 以 及 解决 实战 过 程 中 的 问题 。 
19.3.1 创建 步骤 


1. 添 加 依赖 
1) 通过 SBT 创 建 一 个 空 的 工程 。 


2) 在 build.sbt 添 加 如 下 依赖 : 


resolvers += “Job Server Bintray” at https://dl.bintray.com/spark-jobserver/maven 
libraryDependencies += “spark.jobserver ” $$ “job-server-api” % “0.5.1” % “provided” 


同时 加 入 对 Spark 的 依赖 。 
3) 如 果 使 用 SQL 或 者 Hive Context，job-server-extras 也 需要 加 入 如 下 依赖 : 


© 


libraryDependencies += “spark.jobserver ” $$ “job-server-extras” % “0.5.1” $ “provided” 


2. 编 写 程序 


编写 Spark-jobserver 主 程序 需要 继承 SparkJob 特 质 ， 并 重 写 runJob 和 validate 两 个 方法 。 其 中 ，runjJob 是 程序 执行 入 口 ， 具 体 处 理 逻 辑 可 以 在 runJob 方 法 中 进行 实现 ; 而 validate 用 于 校 验 Spark- 
jobserver 的 输入 参数 是 否 合法 ， 具 体 如 下 : 
Object SampleJob extends SparkJob { 


Override def runJob(sc:SparkContext, jobConfig:Config):Any = ??? 
Override def validate(sc:SparkContext, config:Config):SparkJobValidation = ??? 


实际 开发 中 ， 为 了 方便 调试 ， 可 以 在 SampleJob 中 加 入 main 方 法 直接 调用 runJob， 如 下 : 


def main (args:Array[String])| 
val conf = new SparkConf.setAppName( "WordCountExample" ).setMaster( *"local[4]" ) 
val sc = new SparkContext (conf 
val jobConfig = ConfigFactory.parseString( "input.string-hellojobserver' ) 
runJob (sc, jobConfig) 


— 


19.3.2 一 些 常见 的 问题 


1) 当 上 传 的 Jar 寄 托 于 某 个 预先 启动 的 context 时 ， 如 果 需 要 更 新 jar， 请 先 更 新 该 context， 否 则 可 能 会 出 现 Jar 包 并 未 进行 更 新 的 情况 。 
2) 使 用 curl 或 者 POST 提 交 Spark-jobserver 任 务 时 ， 传 入 参数 请 注意 是 否 存 在 限定 字符 ， 对 于 限定 字符 请 进行 转 义 ,否则 提交 任务 会 报错 。 建 议 使 用 浏览 器 插件 (如 postman) RESTAPI 调 试 工具 。 


3) &sync=true 表 示 同 步 返 回执 行 结果 。 如 果 出 现 Akka 超 时 的 错误 信息 ， 可 以 在 链接 后 面 加 上 &timeout=600 (单位 是 秒 ) 来 避免 一 定 比 例 的 超时 ; 如 果 任 务 本 身 耗 时 严重 ， 建 议 不 要 使 用 ， 程 序 应 考 
虑 异步 模式 来 获取 计算 结果 。 


19.4 使 用 场景 : 用 户 属 性 分 布 计算 
根据 实际 使 用 场景 进行 项 目 需求 分 析 、 计 算 架 构 设计 ， 并 进行 具体 实现 ， 具 体 选择 用 户 属性 分 布 计算 。 
1941 “项 目 需求 


假设 我 们 有 干 万 级 用 户 ， 而 且 对 每 一 个 用 户 进行 了 画像 ， 包 含 5 个 属性 、 分 别 是 性 别 、 年 龄 、 学 历 、 职 业 、 兴 趣 。 如 表 19-2 所 示 ， 各 个 属性 下 的 标签 简单 介绍 如 下 。 


表 19-2 用 户 属 性 标签 


性 别 BIX 


4 i x MS —— 本 fL / 所 一 i > P | | 1 

学 历 «18/18-35/36 ~ 60/>61 

Hoy 金融 /IT/ 汽车 / 服饰 e 

兴趣 购物 /时 尚 /社交 / ARER P 
需求 是 能 让 用 户 任意 选 定 一 些 标签 后 ， 快 速 计算 出 未 选中 属性 的 用 户 分 布 。 接 下 来 我 们 讲述 如 何 使 用 jobserver 来 达到 这 一 目的 。 


19.4.2 ”计算 架构 


根据 需求 ， 我 们 计算 出 用 户 分 布 ， 不 需要 提取 用 户 标志 的 明细 ， 因 此 数据 可 以 提前 加 工 成 一 个 全 分 布 的 cube: 性 别 + 年 龄 + 学 历 + 职业 + 兴趣 + 用 户 数 。 继 而 简化 整个 计算 过 程 。 图 19-2 所 示 为 jobserver 
的 程序 架构 ， 我 们 来 逐一 说 明 整 个 流程 。 


| Load Data - 


HBase 


m,m mm mu EUR QR E UD GR OR M SOR RE OR 


图 19-2 jobserverZ& 44 
用 户 请 求 筛选 若干 条 件 ， 如 人 性别: 男 ， 学 历 : 本 科 及 以 上 }， 我 们 需要 计算 符合 这 个 筛选 条 件 的 用 户 在 学 历 、 职 业 、 兴 趣 这 三 个 属性 的 分 布 。 
jobserver 将 请 求 递交 给 我 们 写 的 QureyJob， 从 HBase 中 获取 全 分 布 cube 进 行 计算 。 计 算 结果 返回 给 调用 方 。 


runJob 的 代码 如 下 : 


override def runJob(sc: SparkContext, config: Config): Any = ( 


val rddName = config.getString ("rddName") 

val conf = config.getString("rules").split("-").map( .split("-")).map (terms 
=> (terms(0), terms(1))).toMap 

val rdd = this.namedRdds.get[ (String, String, String, String, String, Int) ] 


(rddName).get 
| cube = rdd.filter( 
filterRecord( , conf, "O0", CUBE DIM PROPERTIES) 


val attrs = CUBE DIM PROPERTIES.keySet.diff (conf.keySet) 
val ret = new scala.collection.mutable.HashMap[String, Any] 
val size = cube.count () 
if (size > 0) { 
val maxIndex = CUBE DIM PROPERTIES.size 


ret ("size") = cube.map( (maxIndex).trim.toInt).fold(0) ( +) 
for (attr <- attrs) { 
val tmp = cube.map(arr => (arr (CUBE DIM PROPERTIES (attr). 1), 
arr(maxIndex).trim.toInt)).reduceByKey( + _).collect () .toMap 
ret (attr) = tmp 
} 
}else { 
ret ("size") = 0 
} 
ret 


19.4.2 节 中 提 到 我 们 的 程序 从 HBase 中 读 取 全 分 布 cube 进 行 过 滤 和 统计 ， 如 果 每 一 个 请 求 都 从 HBase 中 获取 ， 无 疑 效率 极其 低下 。 因 此 ，jobserver 提 供 了 NamedRDD， 我 们 预先 从 HBase 中 读 取出 数 
据 ， 存 放 在 内 存 中 ， 从 而 提高 计算 效率 。 


读 取 NamedRDD 方 式 如 下 : 


val rdd = this.namedRdds.get[(String, String, String, String, String,Int)]("cube").get 


如 果 全 分 布 cube 发 生 了 变化 ， 此 时 我 们 需要 更 新 内 存 中 的 RDD,， 方式 如 下 : 


this .namedRdds .update (“cube” , cubeRDD) 


19.5 本章 小 结 


本 章 介 绍 了 Spark-jobserver 的 相关 知识 ， 包 括 如 何 部 署 Spark-jobserver， 如 何 创建 Spark-jobserver 项 目 ， 以 及 相关 案例 。 基 于 Spark 持 续 健 康 发 展 的 生态 系统 ， 越 来 越 多 的 企业 和 机 构 在 Spark 上 开 
发 应 用 和 扩展 库 。Spark-jobserver 的 重要 性 不 言 而 喻 ， 无 论 是 项 目 管理 还 是 大 数据 应 用 ， 它 都 有 着 举足轻重 的 地 位 。 
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一 一 《庄子 : 齐 物 论 》 


最 有 智慧 的 人 ， 总 会 表现 出 争 达 大 度 之 态 ; 小 有 才气 的 人 ， 总 爱 为 微小 的 是 非 而 斤斤计较 。 合 卑 大 道 的 言论 ， 其 势 如 粮 原 烈火 ， 既 美好 又 盛大 ， 让 人 听 了 心悦诚服 。 那 些 要 小 聪明 的 言论 ， 琐 琐碎 碎 ， 


废话 连篇 。 
大 数据 的 思路 ,一切 围绕 数据 ， 充 分 发 挥 数据 的 价值 。 
Tachyon 系 统 专注 提升 计算 框架 与 数据 交互 的 效率 ， 减 少 作业 之 间 内 存 共享 开销 ， 减 少 作 业 自身 内 存 开销 ， 为 跨 计 算 框架 数据 交互 提供 更 好 的 内 存 共享 ， 合 平 数据 之 道 。 


本 章 重点 讲述 Tachyon 分 布 式 文件 系统 ， 比 较 了 HDFS 和 Tachyon 两 种 分 布 式 文件 系统 的 区 别 ， 对 Tachyon 的 设计 原理 和 特性 进行 了 说 明 ; 并 通过 部 署 、API、 在 Spark 上 使 用 和 大 家 一 起 进行 Tachyon 
入 门 实践 ;作为 补充 ， 还 对 容错 机 制 进行 了 分 析 。 


现在 可 以 开启 你 的 Tachyon 之 旅 ， 在 大 数据 的 疆域 驰 对 ， 或 许 能 带 来 超 乎 想象 的 效率 体验 。 


20.1 Tachyon 文 件 系统 


Tachyon 是 AMPLab 开 发 的 一 款 内 存 分 布 式 文件 系统 。 它 介 于 计算 层 和 存储 层 之 间 ， 可 以 简单 地 理解 为 存储 层 在 内 存 内 的 一 个 Cache 系 统 。 同 Hadoop 和 和 Spark 一样，Tachyon 是 完全 开源 的 ， 并 且 也 是 
一 个 以 JVM 为 基础 的 系统 。 


20.1.1 文件 系统 概述 


随 着 实时 计算 的 需求 日 益 增 多 ， 分 布 式 内 存 计算 也 持续 升温 ， 如 何 将 海量 数据 近 平 实时 的 处 理 ， 或 者 说 如 何 把 离线 批 处 理 的 速度 提升 到 一 个 新 的 高 度 ， 将 原 有 计算 框架 中 文件 落地 磁盘 替换 成 落地 内 
存 ， 是 提高 效率 的 优化 重点 。 同 时 ， 随 着 大 数据 的 领域 发 展 ， 应 用 层 也 越 来 越 在 意 计 算 层 的 延迟 ， 在 存储 层 只 要 简单 地 以 内 存 蔡 换 磁 盘 ， 就 可 以 明显 地 减 小 延 时 。 因 此 ， 国 外 很 多 社区 都 流行 着 一 名 
话 “Mem is King" , 


随 之 很 多 计算 框架 也 开始 向 内 存 方向 发 展 ， 如 火 如 茶 的 Spark 便 是 因此 而 生 。 

以 Spark 为 例 ， 应 用 中 可 能 会 碰 到 如 下 几 个 问题 : 

1) 作业 间 的 数据 共享 。 当 前 Spark 作 业 间 的 RDD 共 享 只 能 以 物化 的 方式 实现 ， 不 同 Job (Spark Task 之 间 ) 共享 数据 ， 写 入 磁盘 较 慢 ， 效 率 非 常 低 。 
2) 不 同 计算 框架 间 (Spark Task 和 Hadoop MR) 数据 共享 ， 写 入 磁盘 较 慢 ， 只 能 通过 HDFS， 效 率 很 低 。 


3) 从 Spark 本 身 考虑 ， 计 算 引 警 和 存储 引擎 处 在 同一 个 JVM 中 (双重 GC) 。 普 通 的 Spark 作 业 会 将 数据 存 入 JVM， 随 着 计算 的 迭代 ，JVM 中 的 数据 会 迅速 增 大 ， 进 而 会 增 大 GC 的 开销 。 为 减 小 这 个 问 
题 ，Spark 本 身 支 持 将 多 余数 据 spill 到 磁盘 ， 但 这 也 同样 增加 了 序列 化 和 1/O 的 开销 。 而 县 如果 一 旦 JVM 户 演 ， 缓 存在 JVM 上 的 数据 就 会 去 失 ，Spark 不 得 不 根据 数据 重新 计算 。 


以 上 问题 促进 了 内 存 分 布 式 文件 系统 的 出 现 ， 也 就 是 Tachyon。 

对 于 Spark 而 言 ， 计 算数 据 存放 于 Tachyon 之 中 ， 有 以 下 优点 : 

1) Spark 放 在 RDD 中 的 数据 ， 可 以 减少 GC 开销 ; 

2) 保存 数据 缓存 ， 当 Spark 的 JVM 进 程 崩溃 时， 存放 在 Tachyon 的 数据 不 会 受 影 响 ; 

3) 当 Spark 需 要 跟 第 三 方 计算 框架 进行 数据 共享 了 时， 只 要 通过 Tachyon 的 Client 就 可 以 做 到 了 ， 并 且 延 迟 远 低 于 HDFS 等 文件 系统 ， 提 升 了 不 同 框架 共享 内 存 的 速度 ; 
4) 采取 off-heap 内 存 存 储 ， 一 个 内 存 拷贝 ， 没有 GC， 解 决 了 双重 GC 的 问题 。 


Tachyon 是 一 个 分 布 式 内 存 文件 系统 ， 可 以 在 集群 里 以 访问 内 存 的 速度 来 访问 存储 在 Tachyon 里 的 文件 。 如 图 20-1 所 示 ，Tachyon 是 架构 在 底层 的 分 布 式 文件 存储 和 上 层 各 种 计算 框架 之 间 的 一 种 中 间 
件 ， 主 要 将 那些 落地 到 HDFs 系 统 的 文件 变 成 落地 到 分 布 式 内 存 文件 系统 中 ， 来 达到 共享 内 存 ， 从 而 提升 效率 ， 减 少 内 人 存 见 余 和 GC 时 间 。 


Tachyon 人 允许 文件 以 内 存 的 速度 在 集群 框架 中 进行 可 靠 的 共享 ， 就 像 Spark 和 MapReduce 那 样 。Tachyon 将 工作 的 文件 缓存 在 内 存 中 ， 并 且 让 不 同 的 Job 和 Query 以 及 框架 都 能 以 内 存 的 速度 访问 缓存 
文件 。 因 此 ，Tachyon 可 以 减少 那些 需要 经 常 使 用 的 数据 集 通 过 访问 磁盘 来 获得 的 次 数 。 
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分 布 式 
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图 20-1 分 布 式 内 存 文件 系统 框架 
20.1.2 HDFSfHTachyon 


对 HDFS 和 Tachyon 进 行 比较 ， 具 体 如 下 : 


在 存储 结构 方面 ，HDFS 设 计 为 储存 海量 文件 的 分 布 式 系统 ，Tachyon 设 计 为 缓存 常用 数据 的 分 布 式 内 存 文件 系统 。 从 这 点 来 说 ，Tachyon 可 以 看 作 是 操作 系统 的 一 个 Cache 系 统 ，HDFS 可 以 认为 是 磁 
盘 。 


在 可 靠 性 方面 ，HDFS 采 用 了 副本 技术 来 保证 系统 宕 机 等 意外 情况 时 文件 访问 的 一 致 性 和 可 靠 性 。 而 Tachyon 是 依赖 于 底层 文件 系统 的 可 靠 性 来 实现 自身 文件 的 可 靠 性 。 相 对 于 磁盘 ， 内 存 资源 非常 宝 
贵 ， 所 以 Tachyon 一 般 通 过 在 HDFS 上 写 入 checkpoint 日 志 信息 来 实现 对 文件 系统 的 可 恢复 性 。 


在 文件 读 写 方面 ，Tachyon 可 以 更 好 地 利用 本 地 模式 来 读 取 文 件 信息 ， 当 文件 读 取 客 户 端 和 文件 所 在 的 Worker 在 同一 台 机 器 上 时 ， 客 户 端 会 直接 绕 过 Worker 来 读 取 对 应 的 物理 文件 ， 减 少 本 机 的 数据 
交互 。 而 HDFS 遇 到 本 地 读 取 时 ， 会 通过 本 地 socket 进 行 数 据 交换 ， 产 生 一 定 的 系统 开销 。 在 写 入 文件 时 ，HDFs 只 能 写 入 磁盘 ， 而 Tachyon 提 供 了 几 种 数据 写 入 模式 ， 用 以 满足 不 同 需求 。 


20.1.3 ”Tachyon 设 计 原理 


Tachyon 采 用 了 和 Hadoop 类 似 的 传统 Master/Slave 架 构 ( 见 图 20-2) ，TachyonMaster 里 的 WorkflowManager 是 Master 进 程 ， 为 了 防止 单 点 问题 ， 通 过 ZooKeeper 做 HA， 可 以 部 署 多 台 Standby 
Master。Slave 是 由 Worker Daemon 和 Ramdisk 构 成 。 这 里 个 人 理解 只 有 Worker Daemon 是 基于 JVM 的 ，Ramdisk 是 一 个 off heap memory。Master 和 Worker 之 间 的 通信 协议 是 Thrift。 


Worker 节 点 负责 文件 系统 的 管理 ， 存 放 了 缓存 数据 在 自身 节点 的 随机 盘 Ramdisk。 
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图 20-2 ”Tachyon 架 构 
20.1.4 Tachyon 特 性 


Tachyon 和 Spark 都 是 出 自 于 AMPLab， 所 以 不 难 想 象 为 什么 Tachyon 成 为 Spark 默 认 的 off-heap 内 存 存 储 框 架 。 

Tachyon 的 特性 如 下 : 

1) 类 java 的 文件 APl: Tachyon 的 API| 类 似 于 java.io.File 类 ， 提 供 InputStream 和 Output-Stream 接 口 ， 有 效 支持 内 存 映射 |/O。 

2) 兼容 性 : Tachyon 天 生 支 持 Hadoop 文 件 系 统 ，MapReduce 和 Spark 可 以 无 修改 地 直接 运行 ， 可 指定 Hadoop 版 本 进行 编译 。 

3) 插件 式 的 底层 文件 系统 : 为 支持 容错 ，Tachyon 会 checkpoint 内 存 中 的 数据 到 底层 文件 系统 ， 目 前 支持 HDFS、S3、GlusterFS 和 单 节点 本 地 文件 系统 ， 将 来 会 支持 更 多 。 
4) 支持 原生 表 (raw table) : 数据 仓库 中 一 个 表 可 能 有 几 百 列 ，Tachyon 支 持 多 列 数据 ， 而 且 可 选择 只 要 其 中 的 几 列 来 节省 空间 。 

5) 提供 WebUl。 


6) 提供 命令 行 接口 。 


20.2 Tachyon 入 门 
如 何 进 行 Tachyon 入 门 ， 最 好 的 方式 就 是 部 署 ， 并 使 用 起 来 。 
20.2.1 Tachyon 部 署 
Tachyon 文 件 系统 部 署 方式 可 以 分 为 三 类 : 单机 模式 、 集 群 模式 、 高 可 用 集群 模式 。 
集群 模式 相 比 高 可 用 集群 模式 区 别 在 于 多 个 Master 节 点 。 
1. 单 机 模式 
单机 模式 (single node) 部 署 步骤 如 下 : 


1) 下 载 Tachyon 的 发 行 包 ， 从 https://github.com/amplab/tachyon/releases 选 择 版 本 ， 我 们 选择 目前 的 发 行 版 0.7.1， 依 赖 IJDK1.7。 


2) 创建 配置 ， 在 Tachyon 目 录 创 建 tachyon-env.sh 文 件 ，tachyon-env.sh 用 于 对 整个 Tachyon 文 件 系统 进行 配置 。Tachyon 启 动 时 会 运行 conf 下 的 tachyon-env.sh 来 设置 整个 系统 环境 变量 。 


cp conf/tachyon-env.sh.template conf/tachyon-env.sh 
vim conf/tachyon-env.sh 

# 指定 底层 文件 系统 到 本 地 文件 夹 tmp 

export TACHYON UNDERFS ADDRESS=/tmp 


3) 启动 Tachyon， 和 HDFS 一 样 ，Tachyon 在 第 一 次 启动 时 需要 执行 format 命 令 格式 化 ， 格 式 化 完毕 执行 tachyon-start.sh local 启 动 Tachyon 文 件 系统 。 也 可 以 通过 Tachyon-stop.sh 关 闭 Tachyon 系 


# 启动 

./bin/tachyon format 
./bin/tachyon-start.sh local 
# 关闭 

# ./bin/tachyon-stop.sh 


4) 启动 完毕 ， 可 以 访问 Tachyon 界 面 ，http://*.*.*.*:19999/， 如 图 20-3 所 示 。 


Overview Browse File System System Coi Workers 


Tachyon Summary Cluster Usage Summary 


Master Address: localhosti127.0.0.1:19998 Workers Capacity: 1024.00 MB 

Started: 09-21-2015 11:00:39:737 Workers Free / Used: 1024.00 MB / 0.00 B 
Uptime: 0 day(s), 0 hour(s), 0 minute(s), and 25 second(s) UnderF S Capacity: 520.96 GB 

Version: 0.7.1 UnderFS Free / Used: 495.71 GB / 25.25 GB 
Running Workers: 1 


Storage Usage Summary 


Storage Alias Space Capacity Space Used Space Usage 
MEM 1024.00 MB 0.00 B 100%Free 


图 20-3 ”Tachyon 系 统 概况 
图 20-3 中 列 出 了 整个 Tachyon 文 件 系统 概况 ， 包 括 Tachyon 系 统 配 置信 息 、 系 统 的 容量 大 小 、 集 群 Worker 数 目 、Storage 使 用 等 信息 。 
2. 集 群 模式 


对 于 集群 模式 的 Tachyon 来 说 ， 除 了 如 单机 模式 的 基本 配置 外 ， 还 需要 单独 配置 底层 的 文件 系统 ， 一 般 选 择 HDFS， 需 要 单独 配置 tachyon-env.sh 中 的 TACHYON_MASTER_ADDRESS 和 


TACHYON UNDERFS ADDRESS 地址 ， 以 及 TACHYON_UNDERFS ADDRESS-hdfs: //example: 9000， 同 时 修改 conf 目 录 下 的 Slaves 文 件 ， 执 行 format 后 ， 执 行 tachyon-start.sh 即 可 。 
步骤 如 下 : 
1) 下 载 Tachyon 的 发 行 包 ， 创 建 tachyon-env.sh 配 置 ， 并 发 送 到 Worker 节 点 。 
2) 参考 Spark 部 署 ， 配 置 主 节点 和 Worker 的 无 密 钥 登 录 。 
3) 在 配置 文件 conf/workers 中 填写 所 有 节点 ， 修 改 tachyon-env.sh 中 的 Master 地 址 TACHYON MASTER ADDRESS 和 TACHYON _UNDERFS ADDRESS， 并 发 送 到 所 有 节点 。 


4) 启动 : 


./bin/tachyon format 
./bin/tachyon-start.sh all Mount 


5) 运行 example， 测 试 Tachyon 集 群 ， 查 看 http://tachyon.master.hostname:19999 上 的 数据 是 否 存 在 。 


./bin/tachyon runTest Basic CACHE THROUGH 


3. 高 可 用 模式 
Tachyon 的 高 可 用 模式 ， 可 以 理解 为 在 集群 的 基础 上 ， 通 过 ZooKeeper 配 置 多 个 Master 来 实现 整个 集群 的 HA。 
配置 方法 : 
在 tachyon-env.sh 中 增加 配置 项 。 
Tachyon.usezookeeper=true 表 示 使 用 ZooKeeper。 
Tachyon.zookeeper.address=zk1: 2181, zk2: 2181, zk3: 2181 表 示 ZooKeeper 连 接 URL。 
在 配置 使 用 ZooKeeper 之 后 ， 多 个 Master 会 从 中 选举 一 个 Master 作 为 Active Master， 其 他 Master 作 为 Sttandby。 选 举 成 功 的 Master 会 将 自身 的 IP 地 址 写 入 ZooKeeper 节 点 中 ，Worker 会 通过 


ZooKeeper 连 接 真 实 Master 地 址 。 当 Active Master 宕 机 后 ， 其 余 Standby Master 会 重新 发 生 选 举 ， 选 出 新 的 Active Master, 


20.2.2 Tachyon API 


Tachyon 是 用 Java 开 发 实现 的 ， 因 此 提供 的 API 也 是 Java 函 数 ， 要 使 用 这 些 API 需 要 依赖 tachyon-client jar 包 。Tachyon 的 Java API 功 能 大 部 分 集中 于 tachyon.client.TachyonFS 和 
tachyon.client.TachyonFile 两 个 类 中 。 可 以 直接 使 用 TachyonFS 和 TachyonFile 来 操作 文件 系统 。 


如 果 使 用 TachyonFS， 必 须 对 TachyonFS 进 行 初始 化 ， 设 置 连接 路 径 。 如 果 Tachyon 是 高 可 用 模式 ， 使 用 ZooKeeper 作 为 系统 的 分 布 式 服务 以 及 关键 交互 信息 的 存储 空间 。 


操作 如 下 : 


public static TachyonFS fs = null; 
2 单机 模式 
= TachyonFS.get( "tachyon:// example:19000" ); 

j ZK 高 可 用 模式 ， 其 中 zk1， zk2, zk3% ZooKeeperjURL, 端口 默认 2181 
= TachyonFS.get( ' cachyon-ft: // zkl,zk2,2k3' ys 

/ 通过 ff fs 创建 文件 夹 

s.mkdir( "/testdir" ); 

// iBitfsE4 £3 


~ 


fs.rename( "/testdir' , “/newtestdir” ); 
// 删除 文件 或 文件 夹 ， 第 二 个 参数 表示 是 否 北 归 删除; de XU UE, 第 二 个 参数 为 true 
s.delete( “/testdir” , true); 
// 创建 文件 
int fid = fs.createFile( "/testdir/demo.log" ); 
// 获取 文件 ID 
TachyonFile fil Fs. gie Fid); 
// 读 取 file 中 可 以 取得 的 文件 信息 ,并 写 入 数据 
OutputStream oS file, = file.getOutStream(WriteType.MUST CACHE); 


osfile.write( “test” .getBytes()); 
osfile.close(); 


// 读 文件 

TachyonFile file -fs.getFile( "/testdir/demo.log' ); 
InputStream isfile = file.getInStream (ReadType.CACHE); 
// read 方 法 

Int b = isfile.read(); 


isfile.close(); 


以 上 涉及 了 Tachyon 对 整个 文件 系统 的 基本 操作 ， 可 以 满足 对 整个 文件 系统 的 操作 。20.2.3 节 重点 介绍 如 何在 Spark 上 使 用 Tachyon。 


20.2.3 在 Spark 上 使 用 Tachyon 


Tachyon 文 件 系统 已 经 实现 了 Hadoop 的 FileSystem， 在 使 用 时 ， 需 要 在 core-site.xm| 文 件 中 添加 配置 fs.tachyon.impl=tachyon.hadoop.TFS。 同 时 ， 将 tachyon-client jar 放 置 在 Hadoop 的 lib 下 ， 
重启 Hadoop 就 可 以 无 颖 使 用 Tachyon 文 件 系统 。 


在 Spark 文 件 系 统 上 使 用 Tachyon， 配 置 同 Hadoop 一 样 ， 在 Spark 的 conf 目 录 下 新 增 core-site.xm| 文 件 并 添加 fs.tachyon.impl 配 置 ， 对 于 使 用 ZooKeeper 的 Tachyon 可 以 添加 如 下 配置 : 


fs.tachyon-ft.impl=tachyon.hadoop.TFS 


对 于 使 用 Tachyon 的 MapReduce 或 spark 而 言 ， 主 要 使 用 Tachyon 作 为 专门 的 数据 块 缓存 。 
当 完 成 配置 之 后 ， 我 们 可 以 使 用 sc.textFile ( "tachyon: //example: 19000" ) ， 或 者 直接 缓存 RDD 数 据 到 Tachyon 上 ， 需 要 设置 rdd.persist (StorageLevel.OFF HEAP) 。 


对 于 未 使 用 Tachyon 的 计算 框架 而 言 ， 需 要 自己 来 管理 数据 块 。 而 采用 Tachyon， 可 以 无 需 再 管理 原 有 的 数据 块 信息 ， 只 需要 关注 对 应 计算 框架 的 处 理 逻 辑 ， 如 图 20-4 所 示 。 
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Spark 和 Tachyon 版 本 非常 紧密 ， 每 个 版 本 都 进行 对 应 。 在 使 用 中 ，Spark 将 Tachyon 内 置 了 ， 无 法 直接 使 用 Tachyon 的 API， 只 提供 了 如 下 的 使 用 方式 。 
(1) 以 文件 形式 访问 


// 以 文件 的 形式 访问 : 

val s = sc.textFile("tachyon:// example:19000/X") 
s.count () 
s.saveAsTextFile ("tachyon:// example:19000/Y") 


(2) 以 RDD 的 形式 
需要 先 在 conf/spark-defaults.conf 下 增加 如 下 配置 : 
spark.externalBlockStore.url tachyon: //example: 19000 


示例 代码 如 下 : 


val rdd = sc.textFile("tachyon:// example:19998/test") 
rdd.persist (org.apache.spark.storage.StorageLevel.OFF HEAP) 
rdàd.count () 


我 们 会 在 Tachyon 上 看 到 有 RDD 的 中 间 文 件 生成 。 


20.3 ”容错 机 制 


Tachyon 为 了 解决 容错 问题 ， 策 略 是 将 血统 (lineage) 应 用 到 存储 层 (storage layer) ， 主 动 利用 内 存 。 


类 似 Spark 的 RDD，Tachyon 的 容错 机 制 (fault tolerant) 是 使 用 血统 异步 地 向 Tachyon 的 底层 文件 系统 做 checkpoint。 当 向 Tachyon 中 写 入 文件 时 ，Tachyon 会 在 后 台 异 步 地 把 这 个 文件 checkpoint 
到 它 的 底层 存储 ， 如 HDFS、S3 等 。 


这 里 用 到 了 一 个 Edge 的 算法 ， 来 决定 checkpoint 的 顺序 。 比 较 好 的 策略 是 每 次 当前 一 个 checkpoint 完 成 之 后 ， 就 会 checkpoint 一 个 最 新 生成 的 文件 。 


Tachyon 存 在 类 似 RDD 的 血统 概念 ，input 文 件 和 output 文 件 都 会 有 血统 关系 ,这样 来 达到 | 容错。 如 图 20-5 所 示 ， 文 件 集 B 继 承 文件 集 A 的 血统 ， 文 件 集 D 继 承 文件 集 C 的 血统 。 文 件 集 E 继 承 文件 集 B 和 
文件 集 D 的 血统 。 在 文件 丢失 的 情况 下 ，Tachyon 也 能 利用 两 种 资源 分 配 策略 (优先 级 的 资源 分 配 策略 和 公平 调度 的 分 配 策略 ) 来 优先 计算 丢失 掉 的 资源 。 
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20.4 本章 小 结 


Tachyon 是 一 个 基于 内 存 的 分 布 式 文件 系统 ， 通 常 位 于 分 布 式 存 储 系统 和 计算 框架 之 间 ， 可 以 在 不 同 框架 内 共享 内 存 ， 同 时 可 以 减少 内 存 匈 余 和 基于 JVM 内 存 计算 框架 的 GC 时 间 。 


目前 ，Tachyon 的 功能 基本 可 以 看 作 是 : 对 外 提供 了 一 个 以 顺序 文件 流 的 方式 ， 写 本 地 内 存 、 读 本 地 和 远程 内 存 的 接口 、 持 久 化 特定 文件 ， 同 时 兼容 HDFS API。 其 处 理 内存 丢 失 和 著 换 数据 的 方式 使 其 
更 新 一 个 Cache 系 统 而 非 文件 系统 ， 各 种 辅助 功能 暂时 还 不 完善 ， 可 以 理解 为 以 实现 快速 原型 为 思想 设计 的 ， 存 在 一 定 的 改进 空间 ， 或 需要 考虑 优化 设计 方案 。 


